Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
コース概要
導入
- 正の強化による学習
Reinforcement Learning の Element
重要な条件 (アクション、状態、報酬、ポリシー、価値、Q 値など)
表形式のソリューション手法の概要
ソフトウェアエージェントの作成
価値ベース、ポリシーベース、モデルベースのアプローチを理解する
マルコフ決定プロセス (MDP) の使用
ポリシーがエージェントの行動方法を定義する方法
モンテカルロ法の使用
時間差学習
nステップBootstrapping
近似解法
近似によるオンポリシー予測
近似によるオンポリシー制御
近似を使用したオフポリシーメソッド
適格性トレースを理解する
ポリシー勾配メソッドの使用
要約と結論
要求
- 機械学習の経験
- Programmingの経験
観客
- データサイエンティスト
21 時間