お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
週1 — データエンジニアリングの導入
- データエンジニアリングの基本と現代のデータスタック
- データ取り込みパターンとソース
- バッチ処理とストリーミング処理の概念と使用例
- 実践ラボ: サンプルデータをクラウドストレージに取り込む
週2 — Databricks Lakehouse ファウンデーション バッジ
- Databricks プラットフォームの基本とワークスペースナビゲーション
- Delta Lake の概念: ACID、タイムトラベル、スキーマ進化
- ワークスペースのセキュリティ、アクセス制御、および Unity Catalog の基本
- 実践ラボ: Delta テーブルの作成と管理
週3 — Databricks での高度な SQL
- 大規模データ処理向けの高度な SQL 構造とウィンドウ関数
- クエリ最適化、explain プラン、およびコスト意識のあるパターン
- マテリアライズドビュー、キャッシュ、およびパフォーマンスチューニング
- 実践ラボ: 大規模データセットの解析クエリを最適化する
週4 — Apache Spark 用 Databricks 認定デベロッパ (準備)
- Spark アーキテクチャ、RDDs、DataFrames、および Datasets の詳細
- 主要な Spark 変換とアクション; パフォーマンスの考慮点
- Spark ストリーミングの基本と構造化ストリーミングパターン
- 練習試験問題と実践的なテスト問題
週5 — データモデリングの導入
- 概念: 次元モデリング、スター/スキーマ設計、正規化
- Lakehouse モデリングと従来のデータウェアハウスアプローチ
- アナリティクス対応のデータセットのデザインパターン
- 実践ラボ: 消費可能なテーブルとビューの構築
週6 — インポートツールとデータ取り込み自動化の導入
- Databricks 用接続子と取り込みツール (AWS Glue、Data Factory、Kafka)
- ストリーム取り込みパターンとマイクロバッチ設計
- データ検証、品質チェック、スキーマ強制
- 実践ラボ: 忍耐力のある取り込みパイプラインの構築
週7 — データエンジニアリング用 Git Flow と CI/CD の導入
- Git Flow 分岐戦略とリポジトリ組織化
- Notebooks、ジョブ、インフラストラクチャとしてのコードのための CI/CD パイプライン
- データコードのテスト、linting、およびデプロイ自動化
- 実践ラボ: Git をベースとしたワークフローと自動ジョブデプロイを実装する
週8 — Databricks 認定データエンジニア アソシエイト (準備) およびデータエンジニアリングパターン
- 認定トピックのレビューと実践的な演習
- アーキテクチャパターン: 銅/銀/金、CDC、徐々に変化する次元
- 運用パターン: モニタリング、アラート、および系譜
- 実践ラボ: エンジニアリングパターンを適用したエンドツーエンドのパイプライン
週9 — Airflow と Astronomer の導入; スクリプティング
- Airflow コンセプト: DAGs、タスク、オペレータ、およびスケジューリング
- Astronomer プラットフォームの概要とオーケストレーションの最善実践
- 自動化のためのスクリプティング: データタスク用の Python スクリプティングパターン
- 実践ラボ: Airflow DAGs を使用して Databricks ジョブをオーケストレーションする
週10 — データ可視化、Tableau およびカスタマイズされた最終プロジェクト
- Tableau を Databricks に接続する方法と BI レイヤーの最善実践
- ダッシュボード設計の原則とパフォーマンスに配慮した可視化
- カスタマイズされた最終プロジェクト: スコープ設定、実装、およびプレゼンテーション
- 最終プレゼンテーション、ピアレビュー、およびインストラクターフィードバック
まとめと次へのステップ
要求
- 基本的な SQL とデータ概念の理解
- Python または Scala でのプログラミング経験
- クラウドサービスと仮想環境への熟悉度
対象者
- 見習いおよび実務経験のあるデータエンジニア
- ETL/BI 開発者とアナリティクスエンジニア
- パイプラインをサポートするデータプラットフォームと DevOps チーム
350 時間