コース概要

Apache Airflowの概要

  • ワークフロー管理とは何か
  • Apache Airflowの主要な特徴と利点
  • Airflow 2.xの改善点とエコシステム概要

アーキテクチャと核心概念

  • スケジューラ、ウェブサーバー、ワーカープロセス
  • DAGs(Directed Acyclic Graphs)、タスク、オペレーター
  • Executorとバックエンド(Local, Celery, Kubernetes)

インストールとセットアップ

  • ローカル環境とクラウド環境でのAirflowのインストール
  • 異なるExecutorを使用したAirflowの設定
  • メタデータベースと接続の設定

Airflow UIとCLIの操作

  • Airflowウェブインターフェースの探索
  • DAG実行、タスク、ログの監視
  • 管理用のAirflow CLIの使用

DAGの作成と管理

  • TaskFlow APIを使用したDAGの作成
  • オペレーター、センサー、フックの使用
  • 依存関係とスケジューリング間隔の管理

データおよびクラウドサービスとの統合

  • データベース、API、メッセージキューへの接続
  • Airflowを使用したETLパイプラインの実行
  • AWS, GCP, Azureオペレーターを使用したクラウド統合

監視と可観測性

  • タスクログとリアルタイム監視
  • PrometheusとGrafanaを使用したメトリクス
  • メールやSlackを使用したアラートと通知

Apache Airflowのセキュリティ確保

  • 役割ベースのアクセス制御(RBAC)
  • LDAP、OAuth、SSOを使用した認証
  • Vaultやクラウドシークレットストアを使用したシークレット管理

Apache Airflowのスケーリング

  • 並列処理、同時実行性、タスクキュー
  • CeleryExecutorとKubernetesExecutorの使用
  • Helmを使用したKubernetes上のAirflowデプロイメント

本番環境向けのベストプラクティス

  • DAGのバージョン管理とCI/CD
  • DAGのテストとデバッグ
  • 大規模化時の信頼性とパフォーマンスの維持

トラブルシューティングと最適化

  • 失敗したDAGとタスクのデバッグ
  • DAGパフォーマンスの最適化
  • 常見する問題とその回避方法

まとめと今後のステップ

要求

  • Pythonプログラミングの経験
  • データエンジニアリングまたはDevOps概念に関する知識
  • ETLやワークフロー管理に関する理解

対象者

  • データサイエンティスト
  • データエンジニア
  • DevOpsおよびインフラストラクチャエンジニア
  • ソフトウェア開発者
 21 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (7)

今後のコース

関連カテゴリー