お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
導入
- ポジティブな強化を通じて学習する
強化学習の要素
重要な用語(アクション、状態、報酬、方策、価値、Q-値など)
テーブルベースの解法の概要
ソフトウェアエージェントの作成
価値ベース、方策ベース、モデルベースの手法の理解
マルコフ決定過程 (MDP) の取り扱い
ポリシーがエージェントの行動様式を定義する仕組み
モンテカルロ法の使用
時間差学習
n-step ブートストラッピング
近似解法の概要
近似を使用した方策による予測
近似を使用した方策制御
近似を使用した非方策法
適格性トレースの理解
ポリシーグレディエント法の使用
まとめと結論
要求
- 機械学習の経験
- プログラミングの経験
対象者
- データサイエンティスト
21 時間