コース概要

導入

  • SparkとHadoopの特徴とアーキテクチャの概要
  • ビッグデータの理解
  • Pythonプログラミングの基礎

開始

  • Python、Spark、およびHadoopのセットアップ
  • Pythonでのデータ構造の理解
  • PySpark APIの理解
  • HDFSとMapReduceの理解

Pythonを使用したSparkとHadoopの統合

  • PythonでSpark RDDを実装する
  • MapReduceを使用してデータを処理する
  • HDFSで分散データセットを作成する

Spark MLlibを使用した機械学習

Spark Streamingを使用したビッグデータの処理

推薦システムとの連携

Kafka、Sqoop、Kafka、Flumeとの連携

Apache MahoutとSpark、Hadoopの連携

トラブルシューティング

まとめと次のステップ

要求

  • SparkとHadoopの経験
  • Pythonプログラミングの経験

対象者

  • データサイエンティスト
  • 開発者
 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (3)

今後のコース

関連カテゴリー