Value-Based Methods
Value-Based Methods は、Q-value (または V-value) を学習し、greedy にそれを最大化する action を選ぶ ことで policy を導出する RL の流派です。Q-learning、DQN がその代表です。
Tabular Q-Learning
Q-table を持ち、観測した遷移ごとに次の update を行います。
- は TD target
- 括弧内は TD error
Off-policy: behavior policy (例: ε-greedy) と target policy (greedy) が異なってよい点が特徴です。
SARSA との違い
| Method | Target |
|---|---|
| Q-learning | (off-policy) |
| SARSA | (on-policy) |
SARSA は実際に取った action を使う on-policy update です。
Deep Q-Network (DQN)
State / action 空間が大きい (例: Atari) と Q-table が持てません。DQN は Q を NN で近似します。重要な工夫:
- Replay buffer: 過去の (s, a, r, s') を保存し sample
- Target network: 学習を安定化するため slow copy を使う
- 損失:
DQN の改良
| 改良 | 内容 |
|---|---|
| Double DQN | max 操作の overestimation を緩和 |
| Dueling DQN | V(s) と advantage A(s, a) に分解 |
| Prioritized Replay | TD error 大きい遷移を優先 sample |
| Distributional RL (C51) | Return の分布を学習 |
| Noisy Net | 探索のための parameter noise |
| Rainbow | 上記を統合 |
弱点
- 連続 action 空間に直接適用できない (DDPG / SAC など別系統が必要)
- Reward が sparse な task で学習が難しい
- Exploration が ε-greedy に依存
数式で見る Q-learning update
Q-learning は、Bellman optimality equation に基づいて action-value function を更新します。
括弧内は TD error です。
この式の気持ちは、「今の Q 値を、実際の reward と次状態で最善 action を取った場合の価値に近づける」というものです。
DQN では、neural network を使い、target network による target を固定して学習を安定化します。
Target network は、bootstrap target が毎 step 大きく動きすぎることを防ぎます。
関連ページ
主なソース
- DQN paper (Nature): https://www.nature.com/articles/nature14236
- Double DQN: https://arxiv.org/abs/1509.06461
- Rainbow: https://arxiv.org/abs/1710.02298