MDP and Bellman Equations

Markov Decision Process (MDP) は、RL のほぼすべての algorithm の基礎です。MDP と Bellman equation を理解しておくと、Q-learning、policy gradient、PPO、DPO まで自然に繋がります。

MDP の定義

M = (\mathcal{S}, \mathcal{A}, P, R, \gamma)

Markov 性: 次状態は 直前の状態と行動のみ に依存。

Policy は state から action への写像 (確率的または決定的) です。

\pi(a \mid s) = \Pr(A_t = a \mid S_t = s)

時刻 $t$ から先の discounted return:

G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}

State-value function:

V^{\pi}(s) = \mathbb{E}_{\pi}[G_t \mid S_t = s]

Action-value function:

Q^{\pi}(s, a) = \mathbb{E}_{\pi}[G_t \mid S_t = s, A_t = a]

$V^\pi$ は再帰的に書けます。

V^{\pi}(s) = \sum_{a} \pi(a \mid s) \sum_{s', r} P(s', r \mid s, a)\bigl[r + \gamma V^{\pi}(s')\bigr]

同様に Q について:

Q^{\pi}(s, a) = \sum_{s', r} P(s', r \mid s, a)\bigl[r + \gamma \sum_{a'} \pi(a' \mid s')\, Q^{\pi}(s', a')\bigr]

これが Bellman expectation equation です。Iterative policy evaluation の根拠になります。

最適 policy $\pi^*$ に対しては:

V^{*}(s) = \max_a \sum_{s', r} P(s', r \mid s, a)\bigl[r + \gamma V^{*}(s')\bigr]

Q^{*}(s, a) = \sum_{s', r} P(s', r \mid s, a)\bigl[r + \gamma \max_{a'} Q^{*}(s', a')\bigr]

これが Q-learning の基礎です。

理論的には収束しますが、現実の MDP は state が巨大なので、function approximator (NN) を使って Q や V を近似します。