Video World Models
Video World Models は、video の future を予測・生成する model を、world model として使う方向です。Text-to-video generation と似ていますが、agent の action、scene state、physical consistency がより重要になります。
Video prediction から world model へ
古典的な video prediction は、過去 frame から未来 frame を予測します。
World model では、これに action や goal が加わります。
Diffusion / transformer world model
近年は、diffusion model や transformer による high-fidelity video generation が world model の基盤として使われます。
見た目だけでは足りない
World model として使うには、video が realistic なだけでは不十分です。
- Action に対して causal に反応する必要があります。
- Physical consistency が必要です。
- Long horizon で破綻しにくい必要があります。
- Agent が planning に使える state を持つ必要があります。
このため、単なる video generator よりも評価が難しくなります。
Sora との関係
Sora のような large-scale video model は、world simulator として解釈されることがあります。ただし、control、physics、planning、state estimation がどこまで可能かは、単なる visual quality とは別に評価する必要があります。
関連ページ
主なソース
- Sora technical report / blog: https://openai.com/sora/
- Genie paper: https://arxiv.org/abs/2402.15391
- GAIA-1 paper: https://arxiv.org/abs/2309.17080