コース概要

データ分析とビッグデータの概要

  • ビッグデータが「ビッグ」である理由
    • 速度、ボリューム、多様性、信頼性 (VVVV)
  • 伝統的なデータ処理の限界
  • 分散処理
  • 統計的分析
  • 機械学習の種類
  • データ可視化

ビッグデータの役割と責任

  • 管理者
  • 開発者
  • データアナリスト

データ分析に使用される言語

  • R 言語
    • なぜ R を選ぶのか?
    • データの操作、計算、グラフィカル表示
  • Python
    • なぜ Python を選ぶのか?
    • データの操作、処理、クリーニング、解析

データ分析のアプローチ

  • 統計的分析
    • 時系列分析
    • 相関と回帰モデルによる予測
    • 推定(推論統計)
    • ビッグデータセットでの記述統計(例:平均の計算)
  • 機械学習
    • 教師あり学習と教師なし学習
    • 分類とクラスタリング
    • 特定の手法のコスト推定
    • フィルタリング
  • 自然言語処理
    • テキストの処理
    • テキストの意味理解
    • 自動的なテキスト生成
    • 感情分析/トピック分析
  • コンピュータビジョン
    • 画像の取得、処理、解析、理解
    • 3D シーンの再構築、解釈、理解
    • 画像データを用いた意思決定

ビッグデータインフラストラクチャ

  • データ保存
    • リレーショナルデータベース (SQL)
      • MySQL
      • Postgres
      • Oracle
    • ノンリレーショナルデータベース (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j
    • 理解の詳細
      • 階層型データベース
      • オブジェクト指向データベース
      • ドキュメント指向データベース
      • グラフ指向データベース
      • その他
  • 分散処理
    • Hadoop
      • HDFS としての分散ファイルシステム
      • MapReduce を用いた分散処理
    • Spark
      • 大規模データ処理のためのインメモリクラスターコンピューティングフレームワーク
      • ストラクチャードストリーミング
      • Spark SQL
      • 機械学習ライブラリ:MLlib
      • グラフ処理用の GraphX
  • スケーラビリティ
    • パブリッククラウド
      • AWS, Google, Aliyun など
    • プライベートクラウド
      • OpenStack, Cloud Foundry など
    • 自動スケーリング

問題に対する適切なソリューションの選択

ビッグデータの未来

まとめと次へのステップ

要求

  • 数学の一般的な理解
  • プログラミングの一般的な理解
  • データベースの一般的な理解

対象者

  • 開発者/プログラマ
  • IT コンサルタント
 35 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (7)

今後のコース

関連カテゴリー