コース概要

週1 — データエンジニアリングの導入

  • データエンジニアリングの基本と現代のデータスタック
  • データ取り込みパターンとソース
  • バッチ処理とストリーミング処理の概念と使用例
  • 実践ラボ: サンプルデータをクラウドストレージに取り込む

週2 — Databricks Lakehouse ファウンデーション バッジ

  • Databricks プラットフォームの基本とワークスペースナビゲーション
  • Delta Lake の概念: ACID、タイムトラベル、スキーマ進化
  • ワークスペースのセキュリティ、アクセス制御、および Unity Catalog の基本
  • 実践ラボ: Delta テーブルの作成と管理

週3 — Databricks での高度な SQL

  • 大規模データ処理向けの高度な SQL 構造とウィンドウ関数
  • クエリ最適化、explain プラン、およびコスト意識のあるパターン
  • マテリアライズドビュー、キャッシュ、およびパフォーマンスチューニング
  • 実践ラボ: 大規模データセットの解析クエリを最適化する

週4 — Apache Spark 用 Databricks 認定デベロッパ (準備)

  • Spark アーキテクチャ、RDDs、DataFrames、および Datasets の詳細
  • 主要な Spark 変換とアクション; パフォーマンスの考慮点
  • Spark ストリーミングの基本と構造化ストリーミングパターン
  • 練習試験問題と実践的なテスト問題

週5 — データモデリングの導入

  • 概念: 次元モデリング、スター/スキーマ設計、正規化
  • Lakehouse モデリングと従来のデータウェアハウスアプローチ
  • アナリティクス対応のデータセットのデザインパターン
  • 実践ラボ: 消費可能なテーブルとビューの構築

週6 — インポートツールとデータ取り込み自動化の導入

  • Databricks 用接続子と取り込みツール (AWS Glue、Data Factory、Kafka)
  • ストリーム取り込みパターンとマイクロバッチ設計
  • データ検証、品質チェック、スキーマ強制
  • 実践ラボ: 忍耐力のある取り込みパイプラインの構築

週7 — データエンジニアリング用 Git Flow と CI/CD の導入

  • Git Flow 分岐戦略とリポジトリ組織化
  • Notebooks、ジョブ、インフラストラクチャとしてのコードのための CI/CD パイプライン
  • データコードのテスト、linting、およびデプロイ自動化
  • 実践ラボ: Git をベースとしたワークフローと自動ジョブデプロイを実装する

週8 — Databricks 認定データエンジニア アソシエイト (準備) およびデータエンジニアリングパターン

  • 認定トピックのレビューと実践的な演習
  • アーキテクチャパターン: 銅/銀/金、CDC、徐々に変化する次元
  • 運用パターン: モニタリング、アラート、および系譜
  • 実践ラボ: エンジニアリングパターンを適用したエンドツーエンドのパイプライン

週9 — Airflow と Astronomer の導入; スクリプティング

  • Airflow コンセプト: DAGs、タスク、オペレータ、およびスケジューリング
  • Astronomer プラットフォームの概要とオーケストレーションの最善実践
  • 自動化のためのスクリプティング: データタスク用の Python スクリプティングパターン
  • 実践ラボ: Airflow DAGs を使用して Databricks ジョブをオーケストレーションする

週10 — データ可視化、Tableau およびカスタマイズされた最終プロジェクト

  • Tableau を Databricks に接続する方法と BI レイヤーの最善実践
  • ダッシュボード設計の原則とパフォーマンスに配慮した可視化
  • カスタマイズされた最終プロジェクト: スコープ設定、実装、およびプレゼンテーション
  • 最終プレゼンテーション、ピアレビュー、およびインストラクターフィードバック

まとめと次へのステップ

要求

  • 基本的な SQL とデータ概念の理解
  • Python または Scala でのプログラミング経験
  • クラウドサービスと仮想環境への熟悉度

対象者

  • 見習いおよび実務経験のあるデータエンジニア
  • ETL/BI 開発者とアナリティクスエンジニア
  • パイプラインをサポートするデータプラットフォームと DevOps チーム
 350 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー