お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
はじめに、目的、移行戦略
- コースの目標、参加者のプロファイルの照合、成功基準
- 高レベルの移行アプローチとリスク検討事項
- ワークスペース、リポジトリ、およびラボデータセットの設定
1日目 — 移行の基本とアーキテクチャ
- レイクハウス概念、Delta Lakeの概要、Databricksアーキテクチャ
- SMP vs MPPの違いと移行への影響
- Medallion(Bronze→Silver→Gold)設計とUnity Catalogの概要
1日目ラボ — ストアドプロシージャの移行
- サンプルストアドプロシージャをノートブックに移行するハンズオン実習
- 一時テーブルとカーソルをDataFrame変換にマッピングする
- 元の出力との検証と比較
2日目 — 高度なDelta Lake & 増分読み込み
- ACIDトランザクション、コミットログ、バージョン管理、タイムトラベル
- Auto Loader, MERGE INTO パターン、アップサート、スキーマ進化
- OPTIMIZE, VACUUM, Z-ORDER, 分割、ストレージチューニング
2日目ラボ — 増分取り込みと最適化の実装
- Auto Loader取り込みとMERGEワークフローの実装
- OPTIMIZE, Z-ORDER, VACUUMの適用、結果の検証
- 読み書きパフォーマンスの向上を測定する
3日目 — DatabricksでのSQL、パフォーマンス & デバッグ
- 解析SQL機能: ウィンドウ関数、高階関数、JSON/配列処理
- Spark UIの読み取り、DAGs, shuffle, stage, task, ボトルネック診断
- クエリチューニングパターン: ブロードキャスト結合、ヒント、キャッシュ、スプリル低減
3日目ラボ — SQLの再構成とパフォーマンスチューニング
- パフォーマンスを最適化したSpark SQLに重いSQLプロセスを再構成する
- Spark UIトレースを使用して、偏りとシャッフルの問題を特定し修正する
- ベンチマーク前後とチューニングステップの文書化
4日目 — 戦術的なPySpark: 手順型ロジックの置き換え
- Spark実行モデル: ドライバ、実行者、遅延評価、パーティショニング戦略
- ループとカーソルをベクトル化されたDataFrame操作に変換する
- モジュール化、UDFs/pandas UDFs, ウィジェット、再利用可能なライブラリ
4日目ラボ — 手順型スクリプトの再構成
- 手順型ETLスクリプトをモジュール化されたPySparkノートブックに再構成する
- パラメータ化、ユニットテスト風のテスト、再利用可能な関数の導入
- コードレビューやベストプラクティスチェックリストの適用
5日目 — オーケストレーション、エンドツーエンドパイプライン & ベストプラクティス
- Databricks Workflows: ジョブ設計、タスク依存関係、トリガー、エラーハンドリング
- 品質ルールとスキーマ検証を含む増分Medallionパイプラインの設計
- Git(GitHub/Azure DevOps)、CI、PySparkロジックのテスト戦略との統合
5日目ラボ — 完全なエンドツーエンドパイプラインの構築
- Workflowsを使用してBronze→Silver→Goldパイプラインをオーケストレーションする
- ログ、監査、リトライ、自動検証の実装
- 完全なパイプラインを実行し、出力を検証し、デプロイメントノートを準備する
操作化、ガバナンス、および本番環境への対応
- Unity Catalogのガバナンス、ラインジ、アクセスコントロールのベストプラクティス
- コスト、クラスタサイズ、自動スケーリング、ジョブ並行処理パターン
- デプロイメントチェックリスト、ロールバック戦略、ランブックの作成
最終レビュー、知識移転、および次回ステップ
- 参加者が移行作業と学んだ教訓のプレゼンテーションを行う
- ガップ分析、推奨されるフォローアクティビティ、トレーニング資料の提供
- 参考文献、さらなる学習パス、サポートオプション
要求
- データエンジニアリングの概念を理解していること
- SQLとストアドプロシージャ(Synapse / SQL Server)の経験があること
- ETLオーケストレーションの概念に馴染んでいること(ADF または同等のツール)
対象者
- データエンジニアリングの経験を持つ技術管理者
- 手順型OLAPロジックをレイクハウスパターンに移行するデータエンジニア
- Databricksの導入を担当するプラットフォームエンジニア
35 時間