お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
予測AIOpsの導入
- IT運用における予測分析の概要
- 予測に使用されるデータソース(ログ、メトリクス、イベント)
- 時系列予測と異常パターンの主要概念
インシデント予測モデルの設計
- 歴史的なインシデントとシステム動作のラベリング
- モデルの選択と訓練(例:LSTM、Random Forest、AutoML)
- モデル性能の評価と偽陽性の処理
データ収集と特徴エンジニアリング
- モデル入力用にログとメトリクスデータの取り込みと合わせ
- 構造化および非構造化データから特徴を抽出
- オペレーションパイプラインでのノイズと欠損データの処理
根本原因分析(RCA)の自動化
- サービスとインフラストラクチャのグラフベースの相関
- MLを使用してイベントチェーンから確実な根本原因を推定
- トポロジー認識ダッシュボードでのRCAの可視化
対処とワークフロー自動化
- AnsibleやRundeckなどの自動化プラットフォームとの統合
- ロールバック、リスタート、またはトラフィックのリダイレクトをトリガー
- 自動介入の監査と文書化
インテリジェントなAIOpsパイプラインのスケーリング
- 可視化のためのMLOps:再学習とモデルバージョン管理
- 分散ノード全体でリアルタイムで予測を実行
- 生産環境でのAIOpsの展開に関するベストプラクティス
ケーススタディと実践的応用
- 予測AIOpsモデルを使用した実際のインシデントデータの分析
- 合成データと生産データを用いたRCAパイプラインの展開
- 産業界での使用事例のレビュー:クラウド障害、マイクロサービスの不安定性、ネットワーク劣化
まとめと次なるステップ
要求
- PrometheusやELKなどの監視システムの経験
- Pythonと基本的な機械学習の実務知識
- インシデント管理ワークフローに関する理解
対象者
- 上級サイト信頼性エンジニア(SRE)
- IT自動化アーキテクト
- DevOpsおよび可視化プラットフォームのリード
14 時間