コース概要

オープンAIOpsアーキテクチャの設計

  • オープンAIOpsパイプラインの主要コンポーネントの概要
  • データフロー:収集からアラートまで
  • ツール比較と統合戦略

データの収集と集約

  • Prometheusを使用した時系列データの収集
  • LogstashとBeatsを使用したログの取得
  • クロスソース相関のためにデータを正規化する

監視ダッシュボードの構築

  • Grafanaを使用したメトリクスの可視化
  • Kibanaを使用したログ解析用ダッシュボードの構築
  • Elasticsearchクエリを使用して運用インサイトを抽出する

異常検知とインシデント予測

  • Pythonパイプラインに監視データをエクスポートする
  • 外れ値検出と予測のためのMLモデルのトレーニング
  • 監視パイプラインでのライブ推論用にモデルを展開する

オープンツールを使用したアラートと自動化

  • Prometheusアラートルールの作成とAlertmanagerのルーティング
  • 自動応答用にスクリプトまたはAPIワークフローをトリガする
  • Ansible、Rundeckなどのオープンソースオーケストレーションツールの使用

統合とスケーラビリティに関する考慮事項

  • 大量収集と長期保存の処理
  • オープンソーススタックでのセキュリティとアクセス制御
  • 収集、処理、アラートの各層を独立してスケーリングする

実際のアプリケーションと拡張

  • ケーススタディ:パフォーマンスチューニング、ダウンタイム防止、コスト最適化
  • トレーシングツールやサービスグラフを使用したパイプラインの拡張
  • プロダクションでのAIOpsの実行と維持に関するベストプラクティス

まとめと次回ステップ

要求

  • PrometheusやELKなどの監視ツールの経験
  • Pythonと機械学習の基礎知識
  • IT運用とアラートワークフローの理解

対象者

  • 高度なサイト信頼性エンジニア(SREs)
  • 操作部門で働くデータエンジニア
  • DevOpsプラットフォームリードとインフラストラクチャアーキテクト
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー