コース概要
1. ディープ強化学習の概要
- 強化学習とは何か?
- 監督学習、非監督学習、強化学習の違い
- 2025年のDRL応用(ロボティクス、ヘルスケア、ファイナンス、物流)
- エージェント-環境相互作用ループの理解
2. 強化学習の基本概念
- マークォフ決定過程(MDP)
- 状態、行動、報酬、方策、価値関数
- 探索と利用のトレードオフ
- モンテカルロ法と時間差学習(TD)
3. 基本的なRLアルゴリズムの実装
- 表形式の方法:動的計画法、方策評価、反復
- Q-LearningとSARSA
- ε-貪欲探索と漸減戦略
- OpenAI Gymnasiumを使用したRL環境の実装
4. ディープ強化学習への移行
- 表形式の方法の制限
- 関数近似にニューラルネットワークを使用する
- 深層Qネットワーク(DQN)のアーキテクチャとワークフロー
- 経験再生と目標ネットワーク
5. 高度なDRLアルゴリズム
- Double DQN、Dueling DQN、優先経験再生
- 方策勾配法:REINFORCEアルゴリズム
- Actor-Criticアーキテクチャ(A2C、A3C)
- 近傍方策最適化(PPO)
- ソフトActor-Critic(SAC)
6. 連続的な行動空間の扱い方
- 連続制御の課題
- DDPG(Deep Deterministic Policy Gradient)の使用
- TD3(Twin Delayed DDPG)
7. 実践的なツールとフレームワーク
- Stable-Baselines3とRay RLlibの使用
- TensorBoardを使用したログ記録と監視
- DRLモデルのハイパーパラメータ調整
8. 報酬設計と環境設計
- 報酬整形とペナルティバランス
- シミュレーションから実際の転移学習概念
- Gymnasiumでのカスタム環境作成
9. 部分観測可能な環境と汎化能力
- 不完全な状態情報の処理(POMDPs)
- LSTMやRNNを使用した記憶ベースアプローチ
- エージェントの堅牢性と汎化能力の向上
10. ゲーム理論と多エージェント強化学習
- 多エージェント環境の概要
- 協力と競争
- 対抗訓練や戦略最適化への応用
11. ケーススタディと実際の応用例
- 自動運転シミュレーション
- 動的な価格設定と金融取引戦略
- ロボティクスと産業自動化
12. トラブルシューティングと最適化
- 不安定な学習の診断
- 報酬の希薄さと過学習の管理
- GPUや分散システムでのDRLモデルのスケーリング
13. まとめと次へのステップ
- DRLアーキテクチャと主要なアルゴリズムの概要
- 産業トレンドと研究方向(例:RLHF、ハイブリッドモデル)
- さらなる資源と読み物
要求
- Pythonプログラミングの習熟度
- 微積分と線形代数の理解
- 確率論と統計学の基礎知識
- PythonとNumPy、またはTensorFlow/PyTorchを使用した機械学習モデル構築の経験
対象者
- AIとスマートシステムに興味のある開発者
- 強化学習フレームワークを探索するデータサイエンティスト
- 自律システムで働く機械学習エンジニア
お客様の声 (5)
ハンターは素晴らしいです。非常に魅力的で、非常に知識が豊富かつ親しみやすい人です。非常に良くできています。
Rick Johnson - Laramie County Community College
コース - Artificial Intelligence (AI) Overview
機械翻訳
Very flexible.
Frank Ueltzhoffer
コース - Artificial Neural Networks, Machine Learning and Deep Thinking
機械翻訳
I liked the new insights in deep machine learning.
Josip Arneric
コース - Neural Network in R
機械翻訳
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
コース - Introduction to the use of neural networks
機械翻訳
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
コース - Artificial Neural Networks, Machine Learning, Deep Thinking
機械翻訳