Skip to main content

Actor-Critic Methods

Actor-Critic は、policy (πθ\pi_\theta, actor) と value function (VϕV_\phi または QϕQ_\phi, critic) を一緒に学習する RL の枠組みです。Policy gradient の分散を critic で抑え、純粋な value-based より柔軟な policy を扱えます。

構造

Advantage

Advantage は「ある action が平均と比べてどれだけ良いか」を表します。

A(s,a)=Q(s,a)V(s)A(s, a) = Q(s, a) - V(s)

Policy gradient を advantage で書き直すと:

θJE ⁣[tθlogπθ(atst)A(st,at)]\nabla_\theta J \approx \mathbb{E}\!\left[\sum_t \nabla_\theta \log \pi_\theta(a_t \mid s_t)\, A(s_t, a_t)\right]

A2C / A3C

Advantage Actor-Critic (A2C) は synchronous 版、Asynchronous Advantage Actor-Critic (A3C) は複数 worker で並列に経験を集める version です。Deep RL 黎明期の標準でした。

Generalized Advantage Estimation (GAE)

Advantage の推定は分散と bias の trade-off があります。GAE は両者を λ\lambda で滑らかに繋ぐ推定です。

AtGAE(γ,λ)=l=0(γλ)lδt+lA_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l\, \delta_{t+l}

ここで δt=rt+1+γV(st+1)V(st)\delta_t = r_{t+1} + \gamma V(s_{t+1}) - V(s_t) は TD error。PPO の標準で使われます。

Soft Actor-Critic (SAC)

SAC は maximum entropy RL に基づく off-policy actor-critic です。

J(π)=E ⁣[trt+αH(π(st))]J(\pi) = \mathbb{E}\!\left[\sum_t r_t + \alpha\, \mathcal{H}(\pi(\cdot \mid s_t))\right]
  • Entropy 項を入れて exploration を促進
  • 連続 action に強い
  • Robot control や continuous control の主力

DDPG / TD3

DDPG (Deep Deterministic Policy Gradient) と TD3 (Twin Delayed DDPG) は、決定的 policy を扱う off-policy actor-critic です。Continuous action で広く使われ、SAC と並ぶ選択肢です。

数式で見る TD error と GAE

Actor-critic では、actor が policy πθ\pi_\theta を、critic が value function VϕV_\phi を学習します。Critic の基本 signal は TD error です。

δt=rt+γVϕ(st+1)Vϕ(st)\delta_t=r_t+\gamma V_\phi(s_{t+1})-V_\phi(s_t)

この式の気持ちは、「実際に得た reward と次状態の価値を足したものが、今状態の予想価値よりどれくらい良かったか」を測るというものです。

Generalized Advantage Estimation(GAE)は、複数 step の TD error を指数的に重み付けして advantage を作ります。

AtGAE(γ,λ)=l=0(γλ)lδt+lA_t^{\mathrm{GAE}(\gamma,\lambda)}= \sum_{l=0}^{\infty}(\gamma\lambda)^l\delta_{t+l}

λ\lambda が小さいと bias は増えますが分散は下がり、λ\lambda が大きいと Monte Carlo return に近づいて bias は下がりますが分散は増えます。PPO や RLHF では、この GAE が policy update の安定性に大きく効きます。

関連ページ

主なソース