World Models for Planning and Robotics

World Model の実用的な価値は、future prediction そのものではなく、planning と control に使えることにあります。Robot が「この action を取ったら何が起こるか」を内部で試せれば、現実環境で危険な試行錯誤を減らせます。

Model predictive control

Model predictive control (MPC) では、現在 state から複数 action sequence を roll out し、最も良い future を選びます。

World model が正確なら、MPC は強力です。ただし、model error が long horizon で蓄積します。

Latent planning

Pixel 空間で future を生成して planning するのは高コストです。多くの system では、latent state 上で planning します。

z_{t+1} = f_\theta(z_t, a_t)

これにより、rollout を高速に行えます。

Robotics での課題

World model を robotics に使う場合、次の課題があります。

Contact dynamics が難しい。
Object の mass、friction、deformability が見た目から分かりにくい。
Sim-to-real gap が大きい。
Long horizon で model error が蓄積する。
Safety-critical な action を model だけに任せにくい。

Vision foundation model との統合

Robotics では、Segment Anything、Depth Anything、VGGT のような vision foundation model が world model の state representation を補助します。

数式で見る model predictive control

World model を robotics planning に使う場合、現在の latent state $\mathbf{z}_t$ から horizon $H$ の action sequence を評価し、最初の action だけを実行する Model Predictive Control（MPC）がよく使われます。

a_{t:t+H}^*=\arg\max_{a_{t:t+H}}\sum_{k=0}^{H}\gamma^k r(\mathbf{z}_{t+k},a_{t+k})

\mathbf{z}_{t+k+1}=F_\theta(\mathbf{z}_{t+k},a_{t+k})

実行するのは $a_t^*$ だけで、次の観測を得たら再び planning します。この式の気持ちは、「未来を完全には信じすぎず、短い horizon で何度も計画し直すことで model error を抑える」というものです。

不確実性を扱う場合は、ensemble world model の分散を penalty に入れます。

J=\sum_k \gamma^k r_k-\lambda\sum_k \mathrm{Var}_m[F_{\theta_m}(\mathbf{z}_k,a_k)]

この項は、「model が自信のない未来へ進みすぎない」ことを促します。

主なソース

DreamerV3: https://arxiv.org/abs/2301.04104
World Models: https://worldmodels.github.io/
Genie: https://arxiv.org/abs/2402.15391

Model predictive control​

Latent planning​

Robotics での課題​

Vision foundation model との統合​

数式で見る model predictive control​

関連ページ​

主なソース​