お問い合わせを送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
予約を送信いただきありがとうございます!当社のスタッフがすぐにご連絡いたします。
コース概要
1. ディープ強化学習の概要
- 強化学習とは何か?
- 監督学習、非監督学習、強化学習の違い
- 2025年のDRL応用(ロボティクス、ヘルスケア、ファイナンス、物流)
- エージェント-環境相互作用ループの理解
2. 強化学習の基本概念
- マークォフ決定過程(MDP)
- 状態、行動、報酬、方策、価値関数
- 探索と利用のトレードオフ
- モンテカルロ法と時間差学習(TD)
3. 基本的なRLアルゴリズムの実装
- 表形式の方法:動的計画法、方策評価、反復
- Q-LearningとSARSA
- ε-貪欲探索と漸減戦略
- OpenAI Gymnasiumを使用したRL環境の実装
4. ディープ強化学習への移行
- 表形式の方法の制限
- 関数近似にニューラルネットワークを使用する
- 深層Qネットワーク(DQN)のアーキテクチャとワークフロー
- 経験再生と目標ネットワーク
5. 高度なDRLアルゴリズム
- Double DQN、Dueling DQN、優先経験再生
- 方策勾配法:REINFORCEアルゴリズム
- Actor-Criticアーキテクチャ(A2C、A3C)
- 近傍方策最適化(PPO)
- ソフトActor-Critic(SAC)
6. 連続的な行動空間の扱い方
- 連続制御の課題
- DDPG(Deep Deterministic Policy Gradient)の使用
- TD3(Twin Delayed DDPG)
7. 実践的なツールとフレームワーク
- Stable-Baselines3とRay RLlibの使用
- TensorBoardを使用したログ記録と監視
- DRLモデルのハイパーパラメータ調整
8. 報酬設計と環境設計
- 報酬整形とペナルティバランス
- シミュレーションから実際の転移学習概念
- Gymnasiumでのカスタム環境作成
9. 部分観測可能な環境と汎化能力
- 不完全な状態情報の処理(POMDPs)
- LSTMやRNNを使用した記憶ベースアプローチ
- エージェントの堅牢性と汎化能力の向上
10. ゲーム理論と多エージェント強化学習
- 多エージェント環境の概要
- 協力と競争
- 対抗訓練や戦略最適化への応用
11. ケーススタディと実際の応用例
- 自動運転シミュレーション
- 動的な価格設定と金融取引戦略
- ロボティクスと産業自動化
12. トラブルシューティングと最適化
- 不安定な学習の診断
- 報酬の希薄さと過学習の管理
- GPUや分散システムでのDRLモデルのスケーリング
13. まとめと次へのステップ
- DRLアーキテクチャと主要なアルゴリズムの概要
- 産業トレンドと研究方向(例:RLHF、ハイブリッドモデル)
- さらなる資源と読み物
要求
- Pythonプログラミングの習熟度
- 微積分と線形代数の理解
- 確率論と統計学の基礎知識
- PythonとNumPy、またはTensorFlow/PyTorchを使用した機械学習モデル構築の経験
対象者
- AIとスマートシステムに興味のある開発者
- 強化学習フレームワークを探索するデータサイエンティスト
- 自律システムで働く機械学習エンジニア
21 時間
お客様の声 (3)
CHAT GPTを使って遊ぶ時間を取り入れた終わりの部分がとても良かったです。ただし、部屋の設定は最適ではありませんでした。大きなテーブルではなく、小さなテーブルをいくつか用意して、小さなグループでブレインストーミングを行うことができるようにするとより良かったでしょう。
Nola - Laramie County Community College
コース - Artificial Intelligence (AI) Overview
機械翻訳
焦点を絞って基本原理から取り組み、同じ日に実例を適用する
Maggie Webb - Department of Jobs, Regions, and Precincts
コース - Artificial Neural Networks, Machine Learning, Deep Thinking
機械翻訳
実際の会社データを使用していた。 トレーナーは参加者を参加させ、競争させる非常に良いアプローチを持っていた
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
コース - Applied AI from Scratch in Python
機械翻訳