コース概要

AIOps入門

  • AIOpsとは何か、なぜ重要なのか
  • 伝統的な監視とAIOpsによる可観測性の違い
  • AIOpsアーキテクチャと主要なコンポーネント

オペレーションデータの収集と正規化

  • 可観測性データの種類:メトリクス、ログ、トレース
  • 複数のソース(サーバー、コンテナ、クラウド)からデータを収集する
  • エージェントとエクスポーターの使用(Prometheus, Beats, Fluentd)

データ相関分析と異常検出

  • 時系列相関分析と統計的手法
  • MLモデルを使用した異常検出
  • 分散システム全体でのインシデント検出

アラートとノイズ軽減

  • インテリジェントなアラートルールと閾値の設計
  • 抑制、重複排除、およびアラートグループ化
  • Alertmanager, Slack, PagerDuty, Opsgenieとの統合

根本原因分析と可視化

  • ダッシュボードを使用したメトリクスの可視化とトレンド検出
  • RCAのためのイベントとタイムラインの探索
  • 分散トラッキングツールを使用した層間での問題追跡

自動化と対応

  • インシデントから自動スクリプトやワークフローをトリガーする
  • ITSMシステム(ServiceNow, Jira)との統合
  • ケーススタディ:自己修復、スケーリング、トラフィックルーティングの自動化

オープンソースと商用AIOpsプラットフォーム

  • ツールの概要:Prometheus, Grafana, ELK, Moogsoft, Dynatrace
  • AIOpsプラットフォーム選定の評価基準
  • 選択したスタックのデモと手動実装

まとめと次回へのステップ

要求

  • ITオペレーションとシステム監視の概念についての理解
  • 監視ツールやダッシュボードを使用した経験
  • 基本的なログとメトリクス形式に関する知識

対象者

  • インフラストラクチャやアプリケーションを担当するオペレーションチーム
  • サイト信頼性エンジニア(SRE)
  • IT監視と可観測性チーム
 14 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー