コース概要

導入:

  • Apache Spark の Hadoop エコシステム
  • Python、scala の短い紹介

基礎(理論):

  • 建築
  • RDD
  • 変換とアクション
  • ステージ、タスク、依存関係

Databricks 環境を使用して基本を理解します (ハンズオン ワークショップ):

  • RDD APIを使った演習
  • 基本的なアクションと変形機能
  • ペアRDD
  • 参加する
  • キャッシュ戦略
  • DataFrame APIを使用した演習
  • スパークSQL
  • データフレーム: 選択、フィルター、グループ化、並べ替え
  • UDF (ユーザー定義関数)
  • DataSet API の検討
  • ストリーミング

AWS 環境を使用してデプロイメントを理解します (ハンズオン ワークショップ):

  • AWS Glue の基本
  • AWS EMR と AWS Glue の違いを理解する
  • 両方の環境でのジョブの例
  • 長所と短所を理解する

余分な:

  • Apache Airflow オーケストレーションの概要

要求

プログラミングスキル(python、scalaが望ましい)

SQL 基本

 21 時間

参加者の人数



Price per participant

お客様の声 (3)

関連コース

Big Data Analytics in Health

21 時間

関連カテゴリー