コース概要

予測AIOpsの導入

  • IT運用における予測分析の概要
  • 予測に使用されるデータソース(ログ、メトリクス、イベント)
  • 時系列予測と異常パターンの主要概念

インシデント予測モデルの設計

  • 歴史的なインシデントとシステム動作のラベリング
  • モデルの選択と訓練(例:LSTM、Random Forest、AutoML)
  • モデル性能の評価と偽陽性の処理

データ収集と特徴エンジニアリング

  • モデル入力用にログとメトリクスデータの取り込みと合わせ
  • 構造化および非構造化データから特徴を抽出
  • オペレーションパイプラインでのノイズと欠損データの処理

根本原因分析(RCA)の自動化

  • サービスとインフラストラクチャのグラフベースの相関
  • MLを使用してイベントチェーンから確実な根本原因を推定
  • トポロジー認識ダッシュボードでのRCAの可視化

対処とワークフロー自動化

  • AnsibleやRundeckなどの自動化プラットフォームとの統合
  • ロールバック、リスタート、またはトラフィックのリダイレクトをトリガー
  • 自動介入の監査と文書化

インテリジェントなAIOpsパイプラインのスケーリング

  • 可視化のためのMLOps:再学習とモデルバージョン管理
  • 分散ノード全体でリアルタイムで予測を実行
  • 生産環境でのAIOpsの展開に関するベストプラクティス

ケーススタディと実践的応用

  • 予測AIOpsモデルを使用した実際のインシデントデータの分析
  • 合成データと生産データを用いたRCAパイプラインの展開
  • 産業界での使用事例のレビュー:クラウド障害、マイクロサービスの不安定性、ネットワーク劣化

まとめと次なるステップ

要求

  • PrometheusやELKなどの監視システムの経験
  • Pythonと基本的な機械学習の実務知識
  • インシデント管理ワークフローに関する理解

対象者

  • 上級サイト信頼性エンジニア(SRE)
  • IT自動化アーキテクト
  • DevOpsおよび可視化プラットフォームのリード
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー