Exploration and Off-Policy

Exploration と off-policy 学習は、RL の安定性と sample 効率に深く関わります。「未知の良い action を試す」ことと「既知の良い data から学ぶ」ことの両立が課題です。

Exploration-exploitation

Agent は exploration (探索) と exploitation (活用) のバランスを取る必要があります。

種別	説明
On-policy	現在の policy が集めた data だけで学習 (REINFORCE、A2C、PPO)
Off-policy	別 policy (behavior) が集めた data を使える (Q-learning、SAC、DDPG)

Off-policy は sample 効率に優れますが、distribution shift の影響で不安定になりがちです。

別 policy $\mu$ で集めた data を policy $\pi$ の評価に使うには、importance weight を掛けます。

\mathbb{E}_{\pi}[f] = \mathbb{E}_{\mu}\!\left[\frac{\pi(a \mid s)}{\mu(a \mid s)}\, f\right]

PPO の clipped ratio も、importance sampling の安定化と見ることができます。

Off-policy methods は、過去の遷移を replay buffer に貯め、それを sample して学習します。

Prioritized replay、HER (Hindsight Experience Replay) などの拡張があります。