MDP and Bellman Equations
Markov Decision Process (MDP) は、RL のほぼすべての algorithm の基礎です。MDP と Bellman equation を理解しておくと、Q-learning、policy gradient、PPO、DPO まで自然に繋がります。
MDP の定義
M=(S,A,P,R,γ)
- S: state space
- A: action space
- P(s′∣s,a): 遷移確率
- R(s,a): reward function
- γ∈[0,1): discount factor
Markov 性: 次状態は 直前の状態と行動のみ に依存。
Policy と return
Policy は state から action への写像 (確率的または決定的) です。
π(a∣s)=Pr(At=a∣St=s)
時刻 t から先の discounted return:
Gt=k=0∑∞γkRt+k+1
Value function
State-value function:
Vπ(s)=Eπ[Gt∣St=s]
Action-value function:
Qπ(s,a)=Eπ[Gt∣St=s,At=a]
Bellman expectation equation
Vπ は再帰的に書けます。
Vπ(s)=a∑π(a∣s)s′,r∑P(s′,r∣s,a)[r+γVπ(s′)]
同様に Q について:
Qπ(s,a)=s′,r∑P(s′,r∣s,a)[r+γa′∑π(a′∣s′)Qπ(s′,a′)]
これが Bellman expectation equation です。Iterative policy evaluation の根拠になります。
Bellman optimality equation
最適 policy π∗ に対しては:
V∗(s)=amaxs′,r∑P(s′,r∣s,a)[r+γV∗(s′)]
Q∗(s,a)=s′,r∑P(s′,r∣s,a)[r+γa′maxQ∗(s′,a′)]
これが Q-learning の基礎です。
Policy iteration と Value iteration
- Policy iteration: 評価と greedy 改善を交互に繰り返す
- Value iteration: Bellman optimality を直接 fixed-point 反復
理論的には収束しますが、現実の MDP は state が巨大なので、function approximator (NN) を使って Q や V を近似します。
関連ページ
主なソース