コース概要

導入

  • Apache Beam vs MapReduce、Spark Streaming、Kafka ストリーミング、Storm、Flink

インストールと構成 Apache Beam

Apache Beam の機能とアーキテクチャの概要

  • ビーム モデル、SDK、ビーム パイプライン ランナー
  • 分散処理バックエンド

Apache Beam Programming モデルを理解する

  • パイプラインの実行方法

サンプル パイプラインの実行

  • WordCount パイプラインの準備
  • パイプラインをローカルで実行する

パイプラインの設計

  • 構造の計画、変換の選択、入力および出力方法の決定

パイプラインの作成

  • ドライバープログラムの作成とパイプラインの定義
  • Apache Beam クラスの使用
  • データセット、変換、I/O、データエンコーディングなど。

パイプラインの実行

  • パイプラインをローカル、リモート マシン、パブリック クラウドで実行する
  • ランナーの選択
  • ランナー固有の構成

テストとデバッグ Apache Beam

  • タイプヒントを使用して静的型付けをエミュレートする
  • Python パイプラインの依存関係の管理

境界のあるデータセットと境界のないデータセットの処理

  • ウィンドウ処理とトリガー

パイプラインを再利用可能かつ保守可能にする

新しいデータ ソースとシンクを作成する

  • Apache Beam ソースおよびシンク API

Apache Beam と他の Big Data システムの統合

  • アパッチ Hadoop、Apache Spark、Apache Kafka

トラブルシューティング

要約と結論

要求

  • Pythonプログラミングの経験
  • Linuxコマンドラインの使用経験

観客

  • 開発者
  14 時間

参加者の人数



Price per participant

お客様の声 (1)

関連コース

Stream Processing with Kafka Streams

  7 時間

Apache Apex: Processing Big Data-in-Motion

  21 時間

関連カテゴリー