World Models and Predictive Representation Trend
World model と predictive representation は、近年の AI 研究で強く接近しています。Pixel-level に未来を生成するのではなく、agent に必要な latent representation を予測する方向が重要になっています。
二つの流れ
- JEPA / V-JEPA は、future や masked region の embedding を予測します。
- Dreamer 系は、latent state 上で dynamics と reward を予測します。
- Genie 系は、action label なし video から controllable latent action を学習します。
なぜ重要か
人間や agent に必要なのは、未来の pixel そのものではなく、
- 何が動くか
- 何が衝突するか
- どの action が goal に近づくか
- どの object が操作可能か
という abstract な state です。JEPA と world model は、この representation を学ぶ方向でつながります。