コース概要

はじめに、目的、移行戦略

  • コースの目標、参加者のプロファイルの照合、成功基準
  • 高レベルの移行アプローチとリスク検討事項
  • ワークスペース、リポジトリ、およびラボデータセットの設定

1日目 — 移行の基本とアーキテクチャ

  • レイクハウス概念、Delta Lakeの概要、Databricksアーキテクチャ
  • SMP vs MPPの違いと移行への影響
  • Medallion(Bronze→Silver→Gold)設計とUnity Catalogの概要

1日目ラボ — ストアドプロシージャの移行

  • サンプルストアドプロシージャをノートブックに移行するハンズオン実習
  • 一時テーブルとカーソルをDataFrame変換にマッピングする
  • 元の出力との検証と比較

2日目 — 高度なDelta Lake & 増分読み込み

  • ACIDトランザクション、コミットログ、バージョン管理、タイムトラベル
  • Auto Loader, MERGE INTO パターン、アップサート、スキーマ進化
  • OPTIMIZE, VACUUM, Z-ORDER, 分割、ストレージチューニング

2日目ラボ — 増分取り込みと最適化の実装

  • Auto Loader取り込みとMERGEワークフローの実装
  • OPTIMIZE, Z-ORDER, VACUUMの適用、結果の検証
  • 読み書きパフォーマンスの向上を測定する

3日目 — DatabricksでのSQL、パフォーマンス & デバッグ

  • 解析SQL機能: ウィンドウ関数、高階関数、JSON/配列処理
  • Spark UIの読み取り、DAGs, shuffle, stage, task, ボトルネック診断
  • クエリチューニングパターン: ブロードキャスト結合、ヒント、キャッシュ、スプリル低減

3日目ラボ — SQLの再構成とパフォーマンスチューニング

  • パフォーマンスを最適化したSpark SQLに重いSQLプロセスを再構成する
  • Spark UIトレースを使用して、偏りとシャッフルの問題を特定し修正する
  • ベンチマーク前後とチューニングステップの文書化

4日目 — 戦術的なPySpark: 手順型ロジックの置き換え

  • Spark実行モデル: ドライバ、実行者、遅延評価、パーティショニング戦略
  • ループとカーソルをベクトル化されたDataFrame操作に変換する
  • モジュール化、UDFs/pandas UDFs, ウィジェット、再利用可能なライブラリ

4日目ラボ — 手順型スクリプトの再構成

  • 手順型ETLスクリプトをモジュール化されたPySparkノートブックに再構成する
  • パラメータ化、ユニットテスト風のテスト、再利用可能な関数の導入
  • コードレビューやベストプラクティスチェックリストの適用

5日目 — オーケストレーション、エンドツーエンドパイプライン & ベストプラクティス

  • Databricks Workflows: ジョブ設計、タスク依存関係、トリガー、エラーハンドリング
  • 品質ルールとスキーマ検証を含む増分Medallionパイプラインの設計
  • Git(GitHub/Azure DevOps)、CI、PySparkロジックのテスト戦略との統合

5日目ラボ — 完全なエンドツーエンドパイプラインの構築

  • Workflowsを使用してBronze→Silver→Goldパイプラインをオーケストレーションする
  • ログ、監査、リトライ、自動検証の実装
  • 完全なパイプラインを実行し、出力を検証し、デプロイメントノートを準備する

操作化、ガバナンス、および本番環境への対応

  • Unity Catalogのガバナンス、ラインジ、アクセスコントロールのベストプラクティス
  • コスト、クラスタサイズ、自動スケーリング、ジョブ並行処理パターン
  • デプロイメントチェックリスト、ロールバック戦略、ランブックの作成

最終レビュー、知識移転、および次回ステップ

  • 参加者が移行作業と学んだ教訓のプレゼンテーションを行う
  • ガップ分析、推奨されるフォローアクティビティ、トレーニング資料の提供
  • 参考文献、さらなる学習パス、サポートオプション

要求

  • データエンジニアリングの概念を理解していること
  • SQLとストアドプロシージャ(Synapse / SQL Server)の経験があること
  • ETLオーケストレーションの概念に馴染んでいること(ADF または同等のツール)

対象者

  • データエンジニアリングの経験を持つ技術管理者
  • 手順型OLAPロジックをレイクハウスパターンに移行するデータエンジニア
  • Databricksの導入を担当するプラットフォームエンジニア
 35 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー