Reinforcement Learning Overview
RL の全体像、MDP、value-based、policy gradient、actor-critic、offline RL の関係を整理します。
MDP and Bellman Equations
Markov Decision Process、policy、value function、Bellman equation、optimality を整理します。
Value-Based Methods
Q-learning、SARSA、DQN、Double DQN、Rainbow を整理します。
Policy Gradient
Policy gradient の基礎、REINFORCE、log-derivative trick、baseline、variance reduction を整理します。
Actor-Critic Methods
Actor-critic の構造、advantage、A2C / A3C、SAC、generalized advantage estimation を整理します。
TRPO and PPO
Trust Region Policy Optimization と Proximal Policy Optimization、clipped surrogate を整理します。
Exploration and Off-Policy
Exploration-exploitation trade-off、ε-greedy、entropy、curiosity、importance sampling を整理します。
Offline RL
固定 dataset から policy を学ぶ offline RL、CQL、IQL、distribution shift を整理します。
Model-Based RL
World model を学習して planning する model-based RL、Dyna、Dreamer、MuZero を整理します。
Imitation Learning
Behavior Cloning、DAgger、GAIL、inverse RL の概念と LLM SFT との関係を整理します。
Multi-Agent RL
Cooperative / competitive multi-agent RL、CTDE、MADDPG、self-play を整理します。