コース概要

導入

  • ポジティブな強化を通じて学習する

強化学習の要素

重要な用語(アクション、状態、報酬、方策、価値、Q-値など)

テーブルベースの解法の概要

ソフトウェアエージェントの作成

価値ベース、方策ベース、モデルベースの手法の理解

マルコフ決定過程 (MDP) の取り扱い

ポリシーがエージェントの行動様式を定義する仕組み

モンテカルロ法の使用

時間差学習

n-step ブートストラッピング

近似解法の概要

近似を使用した方策による予測

近似を使用した方策制御

近似を使用した非方策法

適格性トレースの理解

ポリシーグレディエント法の使用

まとめと結論

要求

  • 機械学習の経験
  • プログラミングの経験

対象者

  • データサイエンティスト
 21 時間

参加者の人数


参加者1人当たりの料金

今後のコース

関連カテゴリー