Skip to main content

World Models and Predictive Representation Trend

World model と predictive representation は、近年の AI 研究で強く接近しています。Pixel-level に未来を生成するのではなく、agent に必要な latent representation を予測する方向が重要になっています。

二つの流れ

  • JEPA / V-JEPA は、future や masked region の embedding を予測します。
  • Dreamer 系は、latent state 上で dynamics と reward を予測します。
  • Genie 系は、action label なし video から controllable latent action を学習します。

なぜ重要か

人間や agent に必要なのは、未来の pixel そのものではなく、

  • 何が動くか
  • 何が衝突するか
  • どの action が goal に近づくか
  • どの object が操作可能か

という abstract な state です。JEPA と world model は、この representation を学ぶ方向でつながります。

関連ページ