コース概要

    Scala 入門 Scala の簡単な紹介 Labs : Scala Spark について知る Spark の基本 背景と歴史 Spark と Hadoop Spark の概念とアーキテクチャ Spark エコ システム (コア、Spark SQL、mlib、ストリーミング) Labs : Spark のインストールと実行 Spark の概要 Spark の実行ローカル モード Spark Web UI Spark シェル データセットの分析 – パート 1 RDD の検査 ラボ: Spark シェルの探索 RDD RDD の概念 パーティション RDD 操作 / 変換 RDD の種類 キーと値のペア RDD RDD での MapReduce キャッシュと永続化 ラボ: RDD の作成と検査。 RDD のキャッシュ Spark API プログラミング Spark API / RDD API の概要 Spark への最初のプログラムの送信 デバッグ / ロギング 構成プロパティ ラボ : Spark API でのプログラミング、ジョブの送信 Spark データフレームの Spark SQL SQL サポート テーブルの定義とデータセットのインポート データのクエリSQL ストレージ形式を使用したフレーム : JSON / Parquet Labs : データ フレームの作成とクエリ。データ形式の評価 MLlib MLlib イントロ MLlib アルゴリズム ラボ : MLib アプリケーションの作成 GraphX GraphX ライブラリの概要 GraphX API ラボ : Spark を使用したグラフ データの処理 Spark ストリーミング ストリーミングの概要 ストリーミング プラットフォームの評価 ストリーミング操作 スライディング ウィンドウ操作 ラボ : Spark ストリーミング アプリケーションの作成 Spark および Hadoop Hadoop イントロ ( HDFS / YARN) Hadoop + Spark アーキテクチャ Hadoop YARN での Spark の実行 Spark を使用した HDFS ファイルの処理 Spark のパフォーマンスとチューニング ブロードキャスト変数 アキュムレータ メモリ管理とキャッシング Spark の操作 運用環境での Spark のデプロイ サンプル デプロイメント テンプレート 構成の監視 トラブルシューティング

要求

前提条件

Java/Scala/Python言語のいずれかに精通している(ScalaとPythonのラボがあります) Linux開発環境の基本的な理解(コマンドラインナビゲーション/VIまたはnanoを使用したファイル編集)

 21 時間

参加者の人数



Price per participant

関連コース

Big Data Analytics in Health

21 時間

関連カテゴリー