コース概要

強化学習入門

  • 什么是强化学习?
  • 核心概念:エージェント、環境、状態、行動と報酬
  • 強化学習の課題

探索と活用

  • RLモデルにおける探索と活用のバランス
  • 探索戦略:ε-greedy、softmaxなど

Q学習と深層Qネットワーク(DQNs)

  • Q学習の概要
  • TensorFlowを使用したDQNsの実装
  • 経験再生とターゲットネットワークを使用したQ学習の最適化

ポリシーベースの手法

  • ポリシーグラディエントアルゴリズム
  • REINFORCEアルゴリズムとその実装
  • アクターキャリックメソッド

OpenAI Gymの使用方法

  • OpenAI Gymでの環境設定
  • 動的環境でエージェントをシミュレーションする
  • エージェントのパフォーマンス評価

高度な強化学習手法

  • マルチエージェント強化学習
  • 深層決定的ポリシーグラディエント(DDPG)
  • 近傍方策最適化(PPO)

強化学習モデルの展開

  • 強化学習の実世界での応用
  • RLモデルをプロダクション環境に統合する

まとめと次回へのステップ

要求

  • Pythonプログラミングの経験
  • 深層学習と機械学習の基本的な理解
  • 強化学習で使用されるアルゴリズムと数学的概念に関する知識

対象者

  • データサイエンティスト
  • 機械学習実践者
  • AI研究者
 28 時間

参加者の人数


参加者1人あたりの価格

今後のコース

関連カテゴリー