Diffusion Policy
Diffusion Policy は、robot control の action sequence を diffusion model として生成する imitation learning method です。Image や state を condition として、未来の action trajectory を denoise しながら生成します。
なぜ diffusion なのか
Robot action は multi-modal です。同じ状態でも、右から掴む、左から掴む、押す、回り込むなど複数の成功行動があります。単純な MSE regression では、複数 mode の平均を出して失敗しやすくなります。
Diffusion model は multi-modal distribution を表現しやすいため、action generation に向いています。
基本構成
Policy は、未来の action sequence を生成し、そのうち最初のいくつかを実行します。これは receding horizon control に近い使い方です。
World model との違い
Diffusion Policy は future state を明示的に予測せず、直接 action を生成します。World model は future state を予測してから action を選びます。
| Approach | 予測対象 | 長所 |
|---|---|---|
| Diffusion Policy | Action trajectory | Multi-modal action を直接生成できる |
| World model + planning | Future state / reward | 反実仮想 planning がしやすい |
数式で見る Diffusion Policy
Diffusion Policy は、単一 action ではなく action sequence を denoising diffusion model として生成します。Observation を 、noise step を 、noisy action sequence を とすると、noise prediction loss は次の通りです。
この式の気持ちは、「次の 1 action だけを出すのではなく、短い未来の動作全体を一貫した trajectory として生成する」というものです。
Inference では、Gaussian noise から action sequence を denoise し、最初の数 step だけを実行します。
Receding horizon control と同様に、環境が変わるたびに observation を取り直して再生成するため、closed-loop な robot policy として使えます。
関連ページ
- Vision-Language-Action Models
- World Models for Planning and Robotics
- Imitation Learning
- Diffusion Models
主なソース
- Diffusion Policy: https://arxiv.org/abs/2303.04137
- Diffusion Policy project page: https://diffusion-policy.cs.columbia.edu/