コース概要

導入

ビッグデータの理解

Sparkの概要

Pythonの概要

PySparkの概要

  • Resilient Distributed Datasets (RDD) フレームワークを使用したデータ分散
  • Spark API演算子を使用した計算分散

PythonとSparkのセットアップ

PySparkのセットアップ

AWS EC2インスタンスでのSparkのセットアップ

Databricksのセットアップ

AWS EMRクラスタのセットアップ

Pythonプログラミングの基礎を学ぶ

  • Python入門
  • Jupyter Notebookの使用
  • 変数と単純なデータ型の使用
  • リストの操作
  • if文の使用
  • ユーザーからの入力の処理
  • whileループの使用
  • 関数の実装
  • クラスの操作
  • ファイルと例外の処理
  • プロジェクト、データ、APIの操作

Spark DataFrameの基礎を学ぶ

  • Spark DataFramesの入門
  • Sparkを使用した基本的な操作の実装
  • Groupbyと集計操作の使用
  • タイムスタンプと日付の処理

Spark DataFrameプロジェクト演習

MLlibを使用した機械学習の理解

Python、Spark、MLlibを組み合わせた機械学習の実装

回帰分析の理解

  • 線形回帰理論の学習
  • 回帰評価コードの実装
  • サンプル線形回帰演習
  • ロジスティック回帰理論の学習
  • ロジスティック回帰コードの実装
  • サンプルロジスティック回帰演習

ランダムフォレストと決定木の理解

  • ツリーメソッド理論の学習
  • 決定木とランダムフォレストコードの実装
  • サンプルランダムフォレスト分類演習

K-meansクラスタリングの理解

  • K-meansクラスタリング理論の理解
  • K-meansクラスタリングコードの実装
  • サンプルクラスタリング演習

レコメンダーシステムの操作

自然言語処理の実装

  • 自然言語処理 (NLP) の理解
  • NLPツールの概要
  • サンプルNLP演習

PythonでSparkストリーミングの操作

  • Sparkストリーミングの概要
  • サンプルSparkストリーミング演習

閉講の言葉

要求

  • 一般的なプログラミングスキル

対象者

  • 開発者
  • ITプロフェッショナル
  • データサイエンティスト
 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (6)

今後のコース

関連カテゴリー