コース概要

強化学習の概要

  • 強化学習とその応用の概要
  • 監督学習、非監督学習、強化学習の違い
  • エージェント、環境、報酬、方策などの重要な概念

マルコフ決定過程(MDPs)

  • 状態、行動、報酬、状態遷移の理解
  • 値関数とベルマン方程式
  • MDPsを解くための動的計画法

核心的なRLアルゴリズム

  • 表形式の方法:Q-LearningとSARSA
  • 方策ベースの方法:REINFORCEアルゴリズム
  • Actor-Criticフレームワークとその応用

深層強化学習

  • Deep Q-Networks (DQN)の概要
  • 経験再生と目標ネットワーク
  • 方策勾配と高度な深層RL方法

RLフレームワークとツール

  • OpenAI Gymやその他のRL環境の概要
  • PyTorchまたはTensorFlowを使用したRLモデル開発
  • RLエージェントの訓練、テスト、ベンチマーク

強化学習の課題

  • 訓練における探索と利用のバランス
  • 疎な報酬と信用割当問題への対処
  • 強化学習におけるスケーラビリティと計算量の課題

実践活動

  • Q-LearningとSARSAアルゴリズムをゼロから実装する。
  • OpenAI Gymで簡単なゲームをプレイするDQNベースのエージェントを訓練する。
  • カスタム環境でのパフォーマンス向上のためにRLモデルをファインチューニングする。

まとめと次のステップ

要求

  • 機械学習の原理とアルゴリズムに関する深い理解
  • Pythonプログラミングの熟練度
  • ニューラルネットワークと深層学習フレームワークの知識

対象者

  • 機械学習エンジニア
  • AIスペシャリスト
 14 時間

参加者の人数


参加者1人当たりの料金

今後のコース

関連カテゴリー