Skip to main content

Exploration and Off-Policy

Exploration と off-policy 学習は、RL の安定性と sample 効率に深く関わります。「未知の良い action を試す」ことと「既知の良い data から学ぶ」ことの両立が課題です。

Exploration-exploitation

Agent は exploration (探索) と exploitation (活用) のバランスを取る必要があります。

代表的な exploration 戦略

手法内容
ε-greedy確率 ε でランダム action
Boltzmannsoftmax over Q values
Entropy bonus損失に entropy を加える (PPO / SAC)
Noisy NetNN parameter に noise を加える
UCB不確実性に応じて bonus を加える
Curiosity / RND予測誤差を内的 reward に
Go-Explore既知の良 state に戻って探索を再開

On-policy と off-policy

種別説明
On-policy現在の policy が集めた data だけで学習 (REINFORCE、A2C、PPO)
Off-policy別 policy (behavior) が集めた data を使える (Q-learning、SAC、DDPG)

Off-policy は sample 効率に優れますが、distribution shift の影響で不安定になりがちです。

Importance Sampling

別 policy μ\mu で集めた data を policy π\pi の評価に使うには、importance weight を掛けます。

Eπ[f]=Eμ ⁣[π(as)μ(as)f]\mathbb{E}_{\pi}[f] = \mathbb{E}_{\mu}\!\left[\frac{\pi(a \mid s)}{\mu(a \mid s)}\, f\right]

PPO の clipped ratio も、importance sampling の安定化と見ることができます。

Replay Buffer

Off-policy methods は、過去の遷移を replay buffer に貯め、それを sample して学習します。

Prioritized replay、HER (Hindsight Experience Replay) などの拡張があります。

関連ページ

主なソース