Value-Based Methods

Value-Based Methods は、Q-value (または V-value) を学習し、greedy にそれを最大化する action を選ぶ ことで policy を導出する RL の流派です。Q-learning、DQN がその代表です。

Tabular Q-Learning

Q-table を持ち、観測した遷移ごとに次の update を行います。

Q(s, a) \leftarrow Q(s, a) + \alpha\bigl[r + \gamma \max_{a'} Q(s', a') - Q(s, a)\bigr]

Off-policy: behavior policy (例: ε-greedy) と target policy (greedy) が異なってよい点が特徴です。

Method	Target
Q-learning	$r + \gamma \max_{a'} Q(s', a')$ (off-policy)
SARSA	$r + \gamma Q(s', a')$ (on-policy)

SARSA は実際に取った action $a'$ を使う on-policy update です。

State / action 空間が大きい (例: Atari) と Q-table が持てません。DQN は Q を NN $Q_\theta(s, a)$ で近似します。重要な工夫:

\mathcal{L}(\theta) = \mathbb{E}\bigl[(r + \gamma \max_{a'} Q_{\theta^{-}}(s', a') - Q_\theta(s, a))^2\bigr]

Q-learning は、Bellman optimality equation に基づいて action-value function を更新します。

Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha\left(r_t+\gamma\max_{a'}Q(s_{t+1},a')-Q(s_t,a_t)\right)

括弧内は TD error です。

\delta_t=r_t+\gamma\max_{a'}Q(s_{t+1},a')-Q(s_t,a_t)

この式の気持ちは、「今の Q 値を、実際の reward と次状態で最善 action を取った場合の価値に近づける」というものです。

DQN では、neural network $Q_\theta$ を使い、target network $Q_{\bar{\theta}}$ による target を固定して学習を安定化します。

\mathcal{L}(\theta)=\left(r_t+\gamma\max_{a'}Q_{\bar{\theta}}(s_{t+1},a')-Q_\theta(s_t,a_t)\right)^2

Target network は、bootstrap target が毎 step 大きく動きすぎることを防ぎます。