Skip to main content

Video World Models

Video World Models は、video の future を予測・生成する model を、world model として使う方向です。Text-to-video generation と似ていますが、agent の action、scene state、physical consistency がより重要になります。

Video prediction から world model へ

古典的な video prediction は、過去 frame から未来 frame を予測します。

x^t+1:t+k=f(x1:t)\hat{x}_{t+1:t+k} = f(x_{1:t})

World model では、これに action や goal が加わります。

x^t+1:t+k=f(x1:t,at:t+k)\hat{x}_{t+1:t+k} = f(x_{1:t}, a_{t:t+k})

Diffusion / transformer world model

近年は、diffusion model や transformer による high-fidelity video generation が world model の基盤として使われます。

見た目だけでは足りない

World model として使うには、video が realistic なだけでは不十分です。

  • Action に対して causal に反応する必要があります。
  • Physical consistency が必要です。
  • Long horizon で破綻しにくい必要があります。
  • Agent が planning に使える state を持つ必要があります。

このため、単なる video generator よりも評価が難しくなります。

Sora との関係

Sora のような large-scale video model は、world simulator として解釈されることがあります。ただし、control、physics、planning、state estimation がどこまで可能かは、単なる visual quality とは別に評価する必要があります。

関連ページ

主なソース