Skip to main content

Reinforcement Learning Overview

Reinforcement Learning (RL) は、agent が 環境と相互作用しながら、累積 reward を最大化する policy を学習する 枠組みです。Game、robotics、recommendation、自動運転、そして近年は LLM alignment (RLHF / DPO 系) や reasoning model の training に至るまで、極めて広い応用を持ちます。

RL loop

自作概念図。Agent と environment が action / state / reward を介して相互作用し、累積 return GtG_t を最大化する。

Markov Decision Process

RL の標準的定式化は Markov Decision Process (MDP) です。

M=(S,A,P,R,γ)M = (\mathcal{S}, \mathcal{A}, P, R, \gamma)
  • S\mathcal{S}: 状態空間
  • A\mathcal{A}: 行動空間
  • P(ss,a)P(s' \mid s, a): 遷移確率
  • R(s,a)R(s, a): 報酬関数
  • γ[0,1)\gamma \in [0, 1): 割引率

Agent は policy π(as)\pi(a \mid s) に従って行動し、累積 return を最大化します。

Gt=k=0γkrt+k+1G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

主要な分類

代表例
Value-basedDQN、Double DQN、Rainbow
Policy gradientREINFORCE、TRPO、PPO
Actor-CriticA2C、A3C、SAC、PPO
Model-basedDreamer、MuZero、World Models
Offline RLCQL、IQL、BCQ
Inverse RL / ImitationBC、GAIL、DAgger

詳細ページ

ページ内容
MDP and Bellman Equations基礎理論
Value-Based MethodsQ-learning、DQN 系
Policy GradientREINFORCE、log-derivative trick
Actor-Critic MethodsAdvantage、A2C、SAC
TRPO and PPOTrust region、clipped surrogate
Exploration and Off-Policyε-greedy、entropy、importance sampling
Offline RLCQL、IQL、distribution shift
Model-Based RLDreamer、MuZero、planning
Imitation LearningBC、DAgger、GAIL
Multi-Agent RLMARL、MADDPG、self-play

LLM との接続

LLM の post-training (RLHF / DPO / GRPO) は、ある意味 RL の最大の応用先になっています。詳しくは RLHF and Alignment を参照してください。

数式で見る RL の基本 objective

強化学習では、policy πθ(as)\pi_\theta(a\mid s) が環境と相互作用し、discounted return の期待値を最大化します。

J(θ)=Eτπθ[t=0γtrt]J(\theta)=\mathbb{E}_{\tau\sim\pi_\theta}\left[\sum_{t=0}^{\infty}\gamma^t r_t\right]

ここで、trajectory τ=(s0,a0,r0,s1,)\tau=(s_0,a_0,r_0,s_1,\ldots) は policy と環境遷移から生成されます。この式の気持ちは、「今すぐの reward だけでなく、将来の reward も割引率 γ\gamma で考慮して、長期的に良い行動を選ぶ」というものです。

RL algorithm は、この objective をどう推定し、どう最適化するかで分類できます。Value-based method は Q(s,a)Q(s,a) を学び、policy gradient は θJ\nabla_\theta J を直接推定し、model-based RL は環境遷移 p(ss,a)p(s'\mid s,a) を学んで内部 rollout を使います。

関連ページ

主なソース