コース概要

強化学習とエージェントAIの導入

  • 不確実性の下での意思決定と逐次計画
  • RLの主要な構成要素:エージェント、環境、状態、報酬
  • 適応的およびエージェントAIシステムにおけるRLの役割

マルコフ決定プロセス(MDPs)

  • MDPsの形式的な定義と特性
  • 値関数、ベルマン方程式、動的計画法
  • 方策評価、改善、反復

モデルフリーの強化学習

  • モンテカルロ法と時間差学習(TD)
  • Q-learningとSARSA
  • 実践:Pythonでの表形式RLメソッドの実装

深層強化学習

  • 関数近似のためにニューラルネットワークとRLを組み合わせる
  • ディープQネットワーク(DQN)と経験再生
  • アクターキャリブレーターアーキテクチャと方策勾配
  • 実践:DQNおよびPPOを使用してエージェントを訓練する(Stable-Baselines3)

探索戦略と報酬形状化

  • 探索と活用のバランス(ε-greedy, UCB, エントロピーメソッド)
  • 報酬関数の設計と意図しない行動の回避
  • 報酬形状化とカリキュラム学習

強化学習と意思決定の高度なトピック

  • 複数エージェント強化学習と協力戦略
  • 階層的強化学習とオプションフレームワーク
  • オフラインRLと模倣学習による安全な展開

シミュレーション環境と評価

  • OpenAI Gymとカスタム環境の使用
  • 連続アクション空間と離散アクション空間
  • エージェントの性能、安定性、サンプル効率の指標

RLをエージェントAIシステムに統合する

  • 混合エージェントアーキテクチャでの推論とRLの組み合わせ
  • ツールを使用するエージェントとの強化学習の統合
  • 構築と展開に関する運用上の考慮事項

総括プロジェクト

  • シミュレーションタスクのための強化学習エージェントを設計し、実装する。
  • 訓練性能の分析とハイパーパラメータの最適化
  • エージェントコンテキストでの適応的行動と意思決定を示す。

まとめと次なるステップ

要求

  • Pythonプログラミングの高度なスキル
  • 機械学習と深層学習の概念に関する確かな理解
  • 線形代数、確率論、基本的な最適化手法に精通していること

対象者

  • 強化学習エンジニアと応用AI研究者
  • ロボット工学および自動化開発者
  • 適応的およびエージェントAIシステムを扱うエンジニアリングチーム
 28 時間

参加者の人数


参加者1人あたりの価格

お客様の声 (3)

今後のコース

関連カテゴリー