Reinforcement Learning Overview
Reinforcement Learning (RL) は、agent が 環境と相互作用しながら、累積 reward を最大化する policy を学習する 枠組みです。Game、robotics、recommendation、自動運転、そして近年は LLM alignment (RLHF / DPO 系) や reasoning model の training に至るまで、極めて広い応用を持ちます。
自作概念図。Agent と environment が action / state / reward を介して相互作用し、累積 return を最大化する。
Markov Decision Process
RL の標準的定式化は Markov Decision Process (MDP) です。
- : 状態空間
- : 行動空間
- : 遷移確率
- : 報酬関数
- : 割引率
Agent は policy に従って行動し、累積 return を最大化します。
主要な分類
| 軸 | 代表例 |
|---|---|
| Value-based | DQN、Double DQN、Rainbow |
| Policy gradient | REINFORCE、TRPO、PPO |
| Actor-Critic | A2C、A3C、SAC、PPO |
| Model-based | Dreamer、MuZero、World Models |
| Offline RL | CQL、IQL、BCQ |
| Inverse RL / Imitation | BC、GAIL、DAgger |
詳細ページ
| ページ | 内容 |
|---|---|
| MDP and Bellman Equations | 基礎理論 |
| Value-Based Methods | Q-learning、DQN 系 |
| Policy Gradient | REINFORCE、log-derivative trick |
| Actor-Critic Methods | Advantage、A2C、SAC |
| TRPO and PPO | Trust region、clipped surrogate |
| Exploration and Off-Policy | ε-greedy、entropy、importance sampling |
| Offline RL | CQL、IQL、distribution shift |
| Model-Based RL | Dreamer、MuZero、planning |
| Imitation Learning | BC、DAgger、GAIL |
| Multi-Agent RL | MARL、MADDPG、self-play |
LLM との接続
LLM の post-training (RLHF / DPO / GRPO) は、ある意味 RL の最大の応用先になっています。詳しくは RLHF and Alignment を参照してください。
数式で見る RL の基本 objective
強化学習では、policy が環境と相互作用し、discounted return の期待値を最大化します。
ここで、trajectory は policy と環境遷移から生成されます。この式の気持ちは、「今すぐの reward だけでなく、将来の reward も割引率 で考慮して、長期的に良い行動を選ぶ」というものです。
RL algorithm は、この objective をどう推定し、どう最適化するかで分類できます。Value-based method は を学び、policy gradient は を直接推定し、model-based RL は環境遷移 を学んで内部 rollout を使います。
関連ページ
主なソース
- Sutton & Barto, "Reinforcement Learning: An Introduction": http://incompleteideas.net/book/the-book.html
- Spinning Up in Deep RL: https://spinningup.openai.com/
- DeepMind RL course: https://www.deepmind.com/learning-resources/reinforcement-learning-lecture-series-2021