Skip to main content

Imitation Learning

Imitation Learning は、人間や expert の demonstration を真似て policy を学習する 枠組みです。Reward 設計が難しい task や、demonstration の方が安価な状況で使われます。LLM の SFT も広義の imitation learning です。

Behavior Cloning (BC)

最も単純な imitation 法は、supervised learning として扱う ことです。

minθE(s,a)Dexpert ⁣[logπθ(as)]\min_\theta \mathbb{E}_{(s, a) \sim \mathcal{D}_{\text{expert}}}\!\left[-\log \pi_\theta(a \mid s)\right]

シンプルですが、covariate shift が問題になります。学習 policy が expert と少しでも違う state に入ると、そこの行動は学習されていないため、誤りが累積します。

DAgger

DAgger (Dataset Aggregation) は、

  1. 現在の policy で環境を走らせる
  2. その state で expert に正解 action を尋ねる
  3. Dataset に追加して再学習

を繰り返す iterative imitation です。Covariate shift を直接修正します。

GAIL

Generative Adversarial Imitation Learning (GAIL) は、GAN の発想で

  • Discriminator: expert と policy の (s, a) 分布を区別
  • Policy: discriminator を騙すように RL で更新

を行います。Reward を陽に設計しなくても、demonstration から policy を導けるのが利点です。

Inverse RL

Inverse RL は、demonstration から reward function 自体 を推定する枠組みです。GAIL は inverse RL と RL を adversarial に組み合わせたものと見ることもできます。

LLM の SFT との関係

LLM の Supervised Fine-Tuning は、(prompt, response) の expert demonstration を BC するのと等価です。

  • Covariate shift = exposure bias
  • DAgger 的修正 = RLHF / DPO / online preference learning

したがって、LLM の post-training pipeline (SFT → RLHF / DPO) は、

という imitation → preference の流れとして理解できます。

Diffusion Policy との関係

Diffusion Policy は、imitation learning の枠組みで multi-modal な expert action 分布を扱える点が革新でした。Behavior Cloning の進化系と捉えることもできます。

関連ページ

主なソース