Reinforcement Learning Overview

Reinforcement Learning (RL) は、agent が 環境と相互作用しながら、累積 reward を最大化する policy を学習する 枠組みです。Game、robotics、recommendation、自動運転、そして近年は LLM alignment (RLHF / DPO 系) や reasoning model の training に至るまで、極めて広い応用を持ちます。

RL loop

自作概念図。Agent と environment が action / state / reward を介して相互作用し、累積 return $G_t$ を最大化する。

Markov Decision Process

RL の標準的定式化は Markov Decision Process (MDP) です。

M = (\mathcal{S}, \mathcal{A}, P, R, \gamma)

$\mathcal{S}$ : 状態空間
$\mathcal{A}$ : 行動空間
$P(s' \mid s, a)$ : 遷移確率
$R(s, a)$ : 報酬関数
$\gamma \in [0, 1)$ : 割引率

Agent は policy $\pi(a \mid s)$ に従って行動し、累積 return を最大化します。

G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

主要な分類

軸	代表例
Value-based	DQN、Double DQN、Rainbow
Policy gradient	REINFORCE、TRPO、PPO
Actor-Critic	A2C、A3C、SAC、PPO
Model-based	Dreamer、MuZero、World Models
Offline RL	CQL、IQL、BCQ
Inverse RL / Imitation	BC、GAIL、DAgger

詳細ページ

ページ	内容
MDP and Bellman Equations	基礎理論
Value-Based Methods	Q-learning、DQN 系
Policy Gradient	REINFORCE、log-derivative trick
Actor-Critic Methods	Advantage、A2C、SAC
TRPO and PPO	Trust region、clipped surrogate
Exploration and Off-Policy	ε-greedy、entropy、importance sampling
Offline RL	CQL、IQL、distribution shift
Model-Based RL	Dreamer、MuZero、planning
Imitation Learning	BC、DAgger、GAIL
Multi-Agent RL	MARL、MADDPG、self-play

LLM との接続

LLM の post-training (RLHF / DPO / GRPO) は、ある意味 RL の最大の応用先になっています。詳しくは RLHF and Alignment を参照してください。

数式で見る RL の基本 objective

強化学習では、policy $\pi_\theta(a\mid s)$ が環境と相互作用し、discounted return の期待値を最大化します。

J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right]

ここで、trajectory $\tau=(s_0,a_0,r_0,s_1,\ldots)$ は policy と環境遷移から生成されます。この式の気持ちは、「今すぐの reward だけでなく、将来の reward も割引率 $\gamma$ で考慮して、長期的に良い行動を選ぶ」というものです。

RL algorithm は、この objective をどう推定し、どう最適化するかで分類できます。Value-based method は $Q(s,a)$ を学び、policy gradient は $\nabla_\theta J$ を直接推定し、model-based RL は環境遷移 $p(s'\mid s,a)$ を学んで内部 rollout を使います。

主なソース

Sutton & Barto, "Reinforcement Learning: An Introduction": http://incompleteideas.net/book/the-book.html
Spinning Up in Deep RL: https://spinningup.openai.com/
DeepMind RL course: https://www.deepmind.com/learning-resources/reinforcement-learning-lecture-series-2021

Markov Decision Process​

主要な分類​

詳細ページ​

LLM との接続​

数式で見る RL の基本 objective​

関連ページ​

主なソース​