Actor-Critic Methods

Actor-Critic は、policy ( $\pi_\theta$ , actor) と value function ( $V_\phi$ または $Q_\phi$ , critic) を一緒に学習する RL の枠組みです。Policy gradient の分散を critic で抑え、純粋な value-based より柔軟な policy を扱えます。

構造

Advantage

Advantage は「ある action が平均と比べてどれだけ良いか」を表します。

A(s, a) = Q(s, a) - V(s)

Policy gradient を advantage で書き直すと:

\nabla_\theta J \approx \mathbb{E}\!\left[\sum_t \nabla_\theta \log \pi_\theta(a_t \mid s_t)\, A(s_t, a_t)\right]

A2C / A3C

Advantage Actor-Critic (A2C) は synchronous 版、Asynchronous Advantage Actor-Critic (A3C) は複数 worker で並列に経験を集める version です。Deep RL 黎明期の標準でした。

Generalized Advantage Estimation (GAE)

Advantage の推定は分散と bias の trade-off があります。GAE は両者を $\lambda$ で滑らかに繋ぐ推定です。

A_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l\, \delta_{t+l}

ここで $\delta_t = r_{t+1} + \gamma V(s_{t+1}) - V(s_t)$ は TD error。PPO の標準で使われます。

Soft Actor-Critic (SAC)

SAC は maximum entropy RL に基づく off-policy actor-critic です。

J(\pi) = \mathbb{E}\!\left[\sum_t r_t + \alpha\, \mathcal{H}(\pi(\cdot \mid s_t))\right]

Entropy 項を入れて exploration を促進
連続 action に強い
Robot control や continuous control の主力

DDPG / TD3

DDPG (Deep Deterministic Policy Gradient) と TD3 (Twin Delayed DDPG) は、決定的 policy を扱う off-policy actor-critic です。Continuous action で広く使われ、SAC と並ぶ選択肢です。

数式で見る TD error と GAE

Actor-critic では、actor が policy $\pi_\theta$ を、critic が value function $V_\phi$ を学習します。Critic の基本 signal は TD error です。

\delta_t=r_t+\gamma V_\phi(s_{t+1})-V_\phi(s_t)

この式の気持ちは、「実際に得た reward と次状態の価値を足したものが、今状態の予想価値よりどれくらい良かったか」を測るというものです。

Generalized Advantage Estimation（GAE）は、複数 step の TD error を指数的に重み付けして advantage を作ります。

A_t^{\mathrm{GAE}(\gamma,\lambda)}= \sum_{l=0}^{\infty}(\gamma\lambda)^l\delta_{t+l}

$\lambda$ が小さいと bias は増えますが分散は下がり、 $\lambda$ が大きいと Monte Carlo return に近づいて bias は下がりますが分散は増えます。PPO や RLHF では、この GAE が policy update の安定性に大きく効きます。

Actor-Critic Methods

構造

Advantage

A2C / A3C

Generalized Advantage Estimation (GAE)

Soft Actor-Critic (SAC)

DDPG / TD3

数式で見る TD error と GAE

関連ページ

主なソース

構造​

Advantage​

A2C / A3C​

Generalized Advantage Estimation (GAE)​

Soft Actor-Critic (SAC)​

DDPG / TD3​

数式で見る TD error と GAE​

関連ページ​

主なソース​

構造

Advantage

A2C / A3C

Generalized Advantage Estimation (GAE)

Soft Actor-Critic (SAC)

DDPG / TD3

数式で見る TD error と GAE

関連ページ

主なソース