Video World Models

Video World Models は、video の future を予測・生成する model を、world model として使う方向です。Text-to-video generation と似ていますが、agent の action、scene state、physical consistency がより重要になります。

Video prediction から world model へ

古典的な video prediction は、過去 frame から未来 frame を予測します。

\hat{x}_{t+1:t+k} = f(x_{1:t})

World model では、これに action や goal が加わります。

\hat{x}_{t+1:t+k} = f(x_{1:t}, a_{t:t+k})

Diffusion / transformer world model

近年は、diffusion model や transformer による high-fidelity video generation が world model の基盤として使われます。

見た目だけでは足りない

World model として使うには、video が realistic なだけでは不十分です。

Action に対して causal に反応する必要があります。
Physical consistency が必要です。
Long horizon で破綻しにくい必要があります。
Agent が planning に使える state を持つ必要があります。

このため、単なる video generator よりも評価が難しくなります。

Sora との関係

Sora のような large-scale video model は、world simulator として解釈されることがあります。ただし、control、physics、planning、state estimation がどこまで可能かは、単なる visual quality とは別に評価する必要があります。

主なソース

Sora technical report / blog: https://openai.com/sora/
Genie paper: https://arxiv.org/abs/2402.15391
GAIA-1 paper: https://arxiv.org/abs/2309.17080

Video prediction から world model へ​

Diffusion / transformer world model​

見た目だけでは足りない​

Sora との関係​

関連ページ​

主なソース​

Video prediction から world model へ

Diffusion / transformer world model

見た目だけでは足りない

Sora との関係

関連ページ

主なソース