コース概要

ビッグデータ分析のためのデータサイエンス入門

  • データサイエンスの概要
  • ビッグデータの概要
  • データ構造
  • ビッグデータの動機と複雑さ
  • ビッグデータエコシステムと新しい分析アプローチ
  • ビッグデータの主要技術
  • データマイニングのプロセスと課題
    • 関連パターンマイニング
    • データクラスタリング
    • 外れ値検出
    • データ分類

データ分析ライフサイクルの入門

  • 発見
  • データ準備
  • モデル計画
  • モデル構築
  • 結果の提示・コミュニケーション
  • 実装
  • 演習: ケーススタディ

このポイントから、訓練時間の80%がRおよび関連するビッグデータテクノロジーの例と演習に費やされます。

Rの入門

  • RとRstudioのインストール
  • R言語の特徴
  • Rのオブジェクト
  • Rにおけるデータ
  • データ操作
  • ビッグデータの問題点
  • 演習

Hadoopの入門

  • Hadoopのインストール
  • Hadoopモードの理解
  • HDFS
  • MapReduceアーキテクチャ
  • Hadoop関連プロジェクトの概要
  • Hadoop MapReduceでのプログラム作成
  • 演習

RとHadoopをRHadoopで統合する

  • RHadoopのコンポーネント
  • RHadoopのインストールとHadoopとの接続
  • RHadoopのアーキテクチャ
  • RによるHadoopストリーミング
  • RHadoopを用いたデータ分析問題解決
  • 演習

前処理とデータ準備

  • データ準備の手順
  • 特徴量抽出
  • データクリーニング
  • データ統合と変換
  • データ削減 - サンプリング、特徴量部分集合選択
  • 次元削減
  • 離散化とビニング
  • 演習とケーススタディ

Rにおける探査的データ分析手法

  • 記述統計
  • 探査的データ分析
  • 可視化 - 初期段階
  • 単変量の可視化
  • 複数変量の検討
  • 評価のための統計手法
  • 仮説検定
  • 演習とケーススタディ

データ可視化

  • Rにおける基本的な可視化
  • データ可視化のパッケージ ggplot2, lattice, plotly, lattice
  • Rにおけるプロットのフォーマット
  • 高度なグラフ
  • 演習

回帰 (将来値の予測)

  • 線形回帰
  • ユースケース
  • モデルの説明
  • 診断
  • 線形回帰の問題点
  • 縮小法、リッジ回帰、ラソ
  • 一般化と非線形性
  • 回帰スプライン
  • 局所多項式回帰
  • 一般加法モデル
  • RHadoopによる回帰
  • 演習とケーススタディ

分類

  • 分類に関連する問題
  • ベイジアンのリフレッシュ
  • ナイーブベイズ
  • ロジスティック回帰
  • k-最近傍法
  • 決定木アルゴリズム
  • ニューラルネットワーク
  • サポートベクトルマシン
  • 分類器の診断
  • 分類手法の比較
  • スケーラブルな分類アルゴリズム
  • 演習とケーススタディ

モデルの性能評価と選択

  • バイアス、分散、モデルの複雑さ
  • 精度 vs 解釈可能性
  • 分類器の評価
  • モデル/アルゴリズムの性能測定
  • ホールドアウト検証法
  • クロスバリデーション
  • caretパッケージによる機械学習アルゴリズムの調整
  • Profit ROCとLift曲線を用いたモデル性能の可視化

アンサンブル手法

  • バギング
  • ランダムフォレスト
  • ブースティング
  • 勾配ブースティング
  • 演習とケーススタディ

分類と回帰のためのサポートベクトルマシン

  • 最大限の余裕を持つ分類器
    • サポートベクトル分類器
    • サポートベクトルマシン
    • 分類問題へのSVMの適用
    • 回帰問題へのSVMの適用
  • 演習とケーススタディ

データセット内の未知のグループを特定する

  • クラスタリングのための特徴量選択
  • 代表点ベースアルゴリズム: k-means, k-medoids
  • 階層的アルゴリズム: 集約法と分割法
  • 確率的基底アルゴリズム: EM
  • 密度ベースアルゴリズム: DBSCAN, DENCLUE
  • クラスタ検証
  • 高度なクラスタリング概念
  • RHadoopによるクラスタリング
  • 演習とケーススタディ

リンク分析を用いたつながりの発見

  • リンク分析の概念
  • ネットワーク解析のためのメトリクス
  • Pagerankアルゴリズム
  • Hyperlink-Induced Topic Search (HITS)
  • リンク予測
  • 演習とケーススタディ

関連パターンマイニング

  • 頻繁パターンマイニングモデル
  • 頻繁パターンマイニングのスケーラビリティ問題
  • 全探索アルゴリズム
  • Aprioriアルゴリズム
  • FP成長アプローチ
  • 候補ルールの評価
  • 関連規則の応用
  • 検証とテスト
  • 診断
  • RとHadoopによる関連規則
  • 演習とケーススタディ

推薦エンジンの構築

  • 推奨システムの理解
  • 推奨システムで使用されるデータマイニング技術
  • recommenderlabパッケージによる推奨システム
  • 推奨システムの評価
  • RHadoopによる推奨
  • 演習: 推薦エンジンの構築

テキスト分析

  • テキスト分析の手順
  • 生データの収集
  • 単語袋モデル
  • TF-IDF (Term Frequency - Inverse Document Frequency)
  • センチメントの決定
  • 演習とケーススタディ
 35 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (2)

今後のコース

関連カテゴリー