Skip to main content

World Models for Planning and Robotics

World Model の実用的な価値は、future prediction そのものではなく、planning と control に使えることにあります。Robot が「この action を取ったら何が起こるか」を内部で試せれば、現実環境で危険な試行錯誤を減らせます。

Model predictive control

Model predictive control (MPC) では、現在 state から複数 action sequence を roll out し、最も良い future を選びます。

World model が正確なら、MPC は強力です。ただし、model error が long horizon で蓄積します。

Latent planning

Pixel 空間で future を生成して planning するのは高コストです。多くの system では、latent state 上で planning します。

zt+1=fθ(zt,at)z_{t+1} = f_\theta(z_t, a_t)

これにより、rollout を高速に行えます。

Robotics での課題

World model を robotics に使う場合、次の課題があります。

  • Contact dynamics が難しい。
  • Object の mass、friction、deformability が見た目から分かりにくい。
  • Sim-to-real gap が大きい。
  • Long horizon で model error が蓄積する。
  • Safety-critical な action を model だけに任せにくい。

Vision foundation model との統合

Robotics では、Segment AnythingDepth AnythingVGGT のような vision foundation model が world model の state representation を補助します。

数式で見る model predictive control

World model を robotics planning に使う場合、現在の latent state zt\mathbf{z}_t から horizon HH の action sequence を評価し、最初の action だけを実行する Model Predictive Control(MPC)がよく使われます。

at:t+H=argmaxat:t+Hk=0Hγkr(zt+k,at+k)a_{t:t+H}^*=\arg\max_{a_{t:t+H}}\sum_{k=0}^{H}\gamma^k r(\mathbf{z}_{t+k},a_{t+k}) zt+k+1=Fθ(zt+k,at+k)\mathbf{z}_{t+k+1}=F_\theta(\mathbf{z}_{t+k},a_{t+k})

実行するのは ata_t^* だけで、次の観測を得たら再び planning します。この式の気持ちは、「未来を完全には信じすぎず、短い horizon で何度も計画し直すことで model error を抑える」というものです。

不確実性を扱う場合は、ensemble world model の分散を penalty に入れます。

J=kγkrkλkVarm[Fθm(zk,ak)]J=\sum_k \gamma^k r_k-\lambda\sum_k \mathrm{Var}_m[F_{\theta_m}(\mathbf{z}_k,a_k)]

この項は、「model が自信のない未来へ進みすぎない」ことを促します。

関連ページ

主なソース