コース概要

オープンソースツールを使用したAIOpsの導入

  • AIOps概念とその利点の概要
  • 観測性スタックにおけるPrometheusとGrafanaの役割
  • 機械学習がAIOpsにどのように位置づけられるか:予測分析対反応分析

PrometheusとGrafanaの設定

  • 時系列データ収集のためにPrometheusをインストールおよび構成する。
  • リアルタイムメトリクスを使用してGrafanaでダッシュボードを作成する。
  • エクスポーター、リレーベリング、およびサービス発見の探求

機械学習のためのデータ前処理

  • Prometheusメトリクスの抽出と変換
  • 異常検出と予測のためにデータセットを準備する。
  • GrafanaのトランスフォーメーションまたはPythonパイプラインを使用する。

機械学習による異常検出

  • 異常値検出のための基本的な機械学習モデル(例:Isolation Forest、One-Class SVM)
  • 時系列データでモデルを訓練および評価する。
  • Grafanaダッシュボードでの異常の可視化

機械学習によるメトリクス予測

  • 単純な予測モデル(ARIMA、Prophet、LSTMの導入)の構築
  • システム負荷やリソース使用量を予測する。
  • 予測を使用して早期アラートとスケーリング決定を行う。

機械学習とアラーティング、自動化の統合

  • ML出力や閾値に基づいたアラートルールの定義
  • Alertmanagerと通知ルーティングの使用
  • 異常検出時にスクリプトや自動化ワークフローをトリガーする。

AIOpsの拡大と運用

  • 外部観測性ツール(ELKスタック、Moogsoft、Dynatraceなど)との統合
  • 観測性パイプラインでの機械学習モデルの運用化
  • スケールアウト時のAIOpsに関するベストプラクティス

まとめと次なるステップ

要求

  • システム監視と観測性の概念に関する理解
  • GrafanaまたはPrometheusを使用した経験
  • Pythonと基本的な機械学習原理に関する知識

対象者

  • 観測性エンジニア
  • インフラストラクチャとDevOpsチーム
  • モニタリングプラットフォームのアーキテクトおよびサイト信頼性エンジニア(SRE)
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー