Imitation Learning
Imitation Learning は、人間や expert の demonstration を真似て policy を学習する 枠組みです。Reward 設計が難しい task や、demonstration の方が安価な状況で使われます。LLM の SFT も広義の imitation learning です。
Behavior Cloning (BC)
最も単純な imitation 法は、supervised learning として扱う ことです。
シンプルですが、covariate shift が問題になります。学習 policy が expert と少しでも違う state に入ると、そこの行動は学習されていないため、誤りが累積します。
DAgger
DAgger (Dataset Aggregation) は、
- 現在の policy で環境を走らせる
- その state で expert に正解 action を尋ねる
- Dataset に追加して再学習
を繰り返す iterative imitation です。Covariate shift を直接修正します。
GAIL
Generative Adversarial Imitation Learning (GAIL) は、GAN の発想で
- Discriminator: expert と policy の (s, a) 分布を区別
- Policy: discriminator を騙すように RL で更新
を行います。Reward を陽に設計しなくても、demonstration から policy を導けるのが利点です。
Inverse RL
Inverse RL は、demonstration から reward function 自体 を推定する枠組みです。GAIL は inverse RL と RL を adversarial に組み合わせたものと見ることもできます。
LLM の SFT との関係
LLM の Supervised Fine-Tuning は、(prompt, response) の expert demonstration を BC するのと等価です。
- Covariate shift = exposure bias
- DAgger 的修正 = RLHF / DPO / online preference learning
したがって、LLM の post-training pipeline (SFT → RLHF / DPO) は、
という imitation → preference の流れとして理解できます。
Diffusion Policy との関係
Diffusion Policy は、imitation learning の枠組みで multi-modal な expert action 分布を扱える点が革新でした。Behavior Cloning の進化系と捉えることもできます。
関連ページ
主なソース
- DAgger: https://arxiv.org/abs/1011.0686
- GAIL: https://arxiv.org/abs/1606.03476
- Inverse RL survey: https://arxiv.org/abs/1806.06877