コース概要

AI強化Kubernetesオペレーションの導入

  • 現代のクラスタオペレーションにおけるAIの重要性
  • 伝統的なスケーリングとスケジューリングロジックの制限
  • リソース管理のためのML(機械学習)の基本概念

Kubernetesリソース管理の基礎

  • CPU、GPU、メモリ割り当ての基本
  • クォータ、制限、要求の理解
  • ボトルネックと非効率性の特定

スケジューリングのための機械学習手法

  • わークロード配置のための教師ありおよび教師なしモデル
  • リソース需要の予測アルゴリズム
  • カスタムスケジューラーでのML機能の使用

強化学習による知能型自動スケーリング

  • RL(強化学習)エージェントがクラスタ動作から学ぶ方法
  • 効率性のための報酬関数の設計
  • RL駆動の自動スケーリング戦略の構築

メトリクスとテレメトリーを使用した予測自動スケーリング

  • Prometheusデータを用いた予測
  • 時系列モデルを自動スケーリングに適用する
  • 予測精度の評価とモデルの調整

AI駆動の最適化ツールの実装

  • MLフレームワークをKubernetesコントローラーに統合する
  • 知能型制御ループの展開
  • KEDAをAI支援の意思決定に拡張する

コストとパフォーマンス最適化戦略

  • 予測スケーリングを通じたコンピュートコストの削減
  • ML駆動の配置によるGPU利用率の向上
  • ラティンシー、スループット、効率性のバランスを取る

実践的なシナリオと実際のユースケース

  • AIを使用した高負荷アプリケーションの自動スケーリング
  • 異種ノードプールの最適化
  • マルチテナント環境へのMLの適用

まとめと次なるステップ

要求

  • Kubernetesの基本知識
  • コンテナ化アプリケーション展開の経験
  • クラスタ操作とリソース管理への熟悉性

対象者

  • 大規模分散システムを扱うSREs(Site Reliability Engineers)
  • 高負荷ワークロードを管理するKubernetesオペレーター
  • コンピュートインフラを最適化するプラットフォームエンジニア
 21 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (5)

今後のコース

関連カテゴリー