Actor-Critic Methods
Actor-Critic は、policy (, actor) と value function ( または , critic) を一緒に学習する RL の枠組みです。Policy gradient の分散を critic で抑え、純粋な value-based より柔軟な policy を扱えます。
構造
Advantage
Advantage は「ある action が平均と比べてどれだけ良いか」を表します。
Policy gradient を advantage で書き直すと:
A2C / A3C
Advantage Actor-Critic (A2C) は synchronous 版、Asynchronous Advantage Actor-Critic (A3C) は複数 worker で並列に経験を集める version です。Deep RL 黎明期の標準でした。
Generalized Advantage Estimation (GAE)
Advantage の推定は分散と bias の trade-off があります。GAE は両者を で滑らかに繋ぐ推定です。
ここで は TD error。PPO の標準で使われます。
Soft Actor-Critic (SAC)
SAC は maximum entropy RL に基づく off-policy actor-critic です。
- Entropy 項を入れて exploration を促進
- 連続 action に強い
- Robot control や continuous control の主力
DDPG / TD3
DDPG (Deep Deterministic Policy Gradient) と TD3 (Twin Delayed DDPG) は、決定的 policy を扱う off-policy actor-critic です。Continuous action で広く使われ、SAC と並ぶ選択肢です。
数式で見る TD error と GAE
Actor-critic では、actor が policy を、critic が value function を学習します。Critic の基本 signal は TD error です。
この式の気持ちは、「実際に得た reward と次状態の価値を足したものが、今状態の予想価値よりどれくらい良かったか」を測るというものです。
Generalized Advantage Estimation(GAE)は、複数 step の TD error を指数的に重み付けして advantage を作ります。
が小さいと bias は増えますが分散は下がり、 が大きいと Monte Carlo return に近づいて bias は下がりますが分散は増えます。PPO や RLHF では、この GAE が policy update の安定性に大きく効きます。