コース概要

  1. Scala 入門

    • Scala の簡単な紹介
    • 実習:Scala を使い始める
  2. Spark 基礎

    • 背景と歴史
    • Spark と Hadoop
    • Spark の概念とアーキテクチャ
    • Spark エコシステム(Core, Spark SQL, MLlib, Streaming)
    • 実習:Spark のインストールと実行
  3. 初めての Spark

    • ローカルモードでの Spark 実行
    • Spark Web UI
    • Spark shell
    • データセット分析 – 第1部
    • RDD の検査
    • 実習:Spark shell を使って探求する
  4. RDDs

    • RDD の概念
    • パーティション
    • RDD 操作 / 変換
    • RDD タイプ
    • キーバリュー型 RDDs
    • RDD での MapReduce
    • キャッシュと永続化
    • 実習:RDD の作成と検査;RDD のキャッシング
  5. Spark API プログラミング

    • Spark API / RDD API の紹介
    • 最初のプログラムを Spark に提出する
    • デバッグとロギング
    • 設定プロパティ
    • 実習:Spark API を使用したプログラミング、ジョブの提出
  6. Spark SQL

    • Spark での SQL サポート
    • Dataframes
    • テーブルの定義とデータセットのインポート
    • SQL を使用した Dataframe のクエリ実行
    • ストレージ形式:JSON / Parquet
    • 実習:Dataframes の作成とクエリ;データ形式の評価
  7. MLlib

    • MLlib への紹介
    • MLlib アルゴリズム
    • 実習:MLib アプリケーションの作成
  8. GraphX

    • GraphX ライブラリの概要
    • GraphX API
    • 実習:Spark を使用したグラフデータの処理
  9. Spark ストリーミング

    • ストリーミングの概要
    • ストリーミングプラットフォームの評価
    • ストリーミング操作
    • スライディングウィンドウ操作
    • 実習:Spark ストリーミングアプリケーションの作成
  10. Spark と Hadoop

    • Hadoop の概要(HDFS / YARN)
    • Hadoop + Spark アーキテクチャ
    • Hadoop YARN 上での Spark 実行
    • Spark を使用した HDFS ファイルの処理
  11. Spark のパフォーマンスとチューニング

    • Broadcast variables(ブロードキャスト変数)
    • Accumulators(アキュムレータ)
    • メモリ管理とキャッシュ
  12. Spark オペレーション

    • 本番環境での Spark の展開
    • サンプル展開テンプレート
    • 設定
    • 監視
    • Troubleshooting(トラブルシューティング)

要求

前提知識:

Java / Scala / Python のいずれかの言語についての基本的な知識(実習は Scala と Python を使用します)
Linux 開発環境に関する基本的な理解(コマンドラインでの移動、VI や nano によるファイル編集)

 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (6)

今後のコース

関連カテゴリー