Skip to main content

Latent Dynamics Models

Latent Dynamics Model は、high-dimensional な observation を latent state に圧縮し、その latent space 上で dynamics を学習する world model です。Pixel 空間で future を直接予測するよりも、planning や control に必要な information を compact に扱えます。

なぜ latent なのか

Image や video は高次元です。Pixel を直接予測すると、背景 texture や照明変化のような task に不要な detail に capacity を使ってしまいます。Latent dynamics では、observation を task-relevant な state に圧縮します。

zt=eϕ(ot)z_t = e_\phi(o_t)

Dynamics model は、現在 state と action から次の state を予測します。

zt+1pθ(zt+1zt,at)z_{t+1} \sim p_\theta(z_{t+1} \mid z_t, a_t)

Recurrent State-Space Model

Dreamer 系では、recurrent state-space model (RSSM) がよく使われます。Deterministic hidden state と stochastic latent state を組み合わせます。

この構成により、uncertainty と temporal memory の両方を扱えます。

Training objective

Latent dynamics model は、主に次を同時に学習します。

  • Observation reconstruction
  • Reward prediction
  • Continuation / termination prediction
  • Latent consistency
  • Policy / value learning

VAE 的な objective を使い、posterior と prior の KL term を含むことが多いです。

Planning

Latent dynamics model の利点は、model 内で future を想像できることです。

Pixel を実際に decode しなくても、latent state と reward を予測すれば planning ができます。

数式で見る latent dynamics の学習

Latent dynamics model は、高次元 observation oto_t を latent zt\mathbf{z}_t に圧縮し、その latent の時間発展を学習します。

zt=Eϕ(ot),z^t+1=Fθ(zt,at)\mathbf{z}_t=E_\phi(o_t), \qquad \hat{\mathbf{z}}_{t+1}=F_\theta(\mathbf{z}_t,a_t)

Prediction loss は latent 空間で書けます。

Ldyn=tFθ(zt,at)sg(Eϕ(ot+1))2\mathcal{L}_{dyn}=\sum_t\left\|F_\theta(\mathbf{z}_t,a_t)-\mathrm{sg}(E_\phi(o_{t+1}))\right\|^2

ここで、sg\mathrm{sg} は stop-gradient です。この式の気持ちは、「次の画像そのものを pixel で予測するのではなく、制御に必要な抽象表現の次状態を予測する」というものです。Pixel prediction は細部に引っ張られやすい一方、latent prediction は planning に必要な dynamics を学びやすくなります。

関連ページ

主なソース