コース概要

導入

  • 正の強化による学習

Reinforcement Learning の Element

重要な条件 (アクション、状態、報酬、ポリシー、価値、Q 値など)

表形式のソリューション手法の概要

ソフトウェアエージェントの作成

価値ベース、ポリシーベース、モデルベースのアプローチを理解する

マルコフ決定プロセス (MDP) の使用

ポリシーがエージェントの行動方法を定義する方法

モンテカルロ法の使用

時間差学習

nステップBootstrapping

近似解法

近似によるオンポリシー予測

近似によるオンポリシー制御

近似を使用したオフポリシーメソッド

適格性トレースを理解する

ポリシー勾配メソッドの使用

要約と結論

要求

  • 機械学習の経験
  • Programmingの経験

観客

  • データサイエンティスト
  21 時間
 

参加者の人数


開始

完了


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

関連コース

AI and Robotics for Nuclear - Extended

  120 時間

AI and Robotics for Nuclear

  80 時間

関連カテゴリー