Exploration and Off-Policy
Exploration と off-policy 学習は、RL の安定性と sample 効率に深く関わります。「未知の良い action を試す」ことと「既知の良い data から学ぶ」ことの両立が課題です。
Exploration-exploitation
Agent は exploration (探索) と exploitation (活用) のバランスを取る必要があります。
代表的な exploration 戦略
| 手法 | 内容 |
|---|---|
| ε-greedy | 確率 ε でランダム action |
| Boltzmann | softmax over Q values |
| Entropy bonus | 損失に entropy を加える (PPO / SAC) |
| Noisy Net | NN parameter に noise を加える |
| UCB | 不確実性に応じて bonus を加える |
| Curiosity / RND | 予測誤差を内的 reward に |
| Go-Explore | 既知の良 state に戻って探索を再開 |
On-policy と off-policy
| 種別 | 説明 |
|---|---|
| On-policy | 現在の policy が集めた data だけで学習 (REINFORCE、A2C、PPO) |
| Off-policy | 別 policy (behavior) が集めた data を使える (Q-learning、SAC、DDPG) |
Off-policy は sample 効率に優れますが、distribution shift の影響で不安定になりがちです。
Importance Sampling
別 policy で集めた data を policy の評価に使うには、importance weight を掛けます。
PPO の clipped ratio も、importance sampling の安定化と見ることができます。
Replay Buffer
Off-policy methods は、過去の遷移を replay buffer に貯め、それを sample して学習します。
Prioritized replay、HER (Hindsight Experience Replay) などの拡張があります。
関連ページ
主なソース
- Sutton & Barto: http://incompleteideas.net/book/the-book.html
- RND (curiosity): https://arxiv.org/abs/1810.12894
- HER: https://arxiv.org/abs/1707.01495