コース概要

導入

Scala Programming の詳細なレビュー

  • 構文と構造
  • フロー制御と機能

スパークの内部構造

  • 復元力のある分散データセット (RDD)
  • グラフからクラスターへの Spark スクリプト

Spark Streamingの概要

  • ストリーミングアーキテクチャ
  • ストリーミングの間隔
  • フォールトトレランス

開発環境の準備

  • インストールと設定 Apache Spark
  • Scala IDE のインストールと構成
  • JDKのインストールと構成

【6】初級者から上級者まで

  • キー/値 RDD の操作
  • RDD のフィルタリング
  • 正規表現を使用した Spark スクリプトの改善
  • クラスター上でのデータの共有
  • ネットワーク データ セットの操作
  • BFS アルゴリズムの実装
  • Sparkドライバースクリプトの作成
  • スクリプトによるリアルタイムの追跡
  • 継続的なアプリケーションの作成
  • ストリーミング線形回帰
  • Spark Machine Learning ライブラリの使用

スパークとクラスター

  • SBT ツールを使用した依存関係と Spark スクリプトのバンドル
  • EMR を使用したクラスターの説明
  • RDDのパーティショニングによる最適化
  • Spark ログの使用

Spark Streaming への統合

  • Apache Kafka の統合と Kafka トピックの操作
  • Apache Fume の統合とプルベース/プッシュベースの Flume 構成の操作
  • カスタム レシーバー クラスの作成
  • Cassandra を統合し、データをリアルタイム サービスとして公開する

生産中

  • アプリケーションをパッケージ化し、Spark-Submit で実行する
  • Spark ジョブとクラスターのトラブルシューティング、チューニング、デバッグ

要約と結論

要求

  • Programmingとスクリプトの経験

観客

  • ソフトウェア・エンジニア
 21 時間

参加者の人数



Price per participant

お客様の声 (5)

関連コース

Big Data Analytics in Health

21 時間

関連カテゴリー