Skip to main content

Parameterization for Video Diffusion

Video Diffusion Models では、denoising model が何を予測するかによって、training の安定性や生成品質が変わります。代表的な parameterization には、ϵ\boldsymbol{\epsilon}-prediction と v\mathbf{v}-prediction があります。

Forward process の定義

Real data から sample された xqreal\mathbf{x} \sim q_{\text{real}} に対して、Gaussian noise を時間方向に少しずつ加えた noisy variable の系列を {ztt=1,,T}\{\mathbf{z}_t \mid t = 1, \dots, T\} と書きます。Differentiable な noise schedule (αt,σt)(\alpha_t, \sigma_t) を使うと、forward process は次のように書けます。

q(ztx)=N(zt;αtx,σt2I)q(\mathbf{z}_t \mid \mathbf{x}) = \mathcal{N}(\mathbf{z}_t; \alpha_t \mathbf{x}, \sigma_t^2 \mathbf{I})

0s<tT0 \leq s < t \leq T に対しては、log signal-to-noise ratio λt=log[αt2/σt2]\lambda_t = \log[\alpha_t^2 / \sigma_t^2] を使うと、DDIM の更新式は次のように書けます。

q(ztzs)=N ⁣(zt;αtαszs,σts2I),σts2=(1eλtλs)σt2q(\mathbf{z}_t \mid \mathbf{z}_s) = \mathcal{N}\!\left(\mathbf{z}_t; \frac{\alpha_t}{\alpha_s}\mathbf{z}_s, \sigma_{t \mid s}^2 \mathbf{I}\right), \qquad \sigma_{t \mid s}^2 = (1 - e^{\lambda_t - \lambda_s})\sigma_t^2

v-parameterization

Salimans と Ho(2022)によって提案された v\mathbf{v}-prediction は、次のように定義されます。

v=αtϵσtx\mathbf{v} = \alpha_t \boldsymbol{\epsilon} - \sigma_t \mathbf{x}

Angular coordinate を使うと、この parameterization の意味が見えやすくなります。ϕt=arctan(σt/αt)\phi_t = \arctan(\sigma_t / \alpha_t) と置くと、αt=cosϕ\alpha_t = \cos\phiσt=sinϕ\sigma_t = \sin\phizϕ=cosϕx+sinϕϵ\mathbf{z}_\phi = \cos\phi\,\mathbf{x} + \sin\phi\,\boldsymbol{\epsilon} と書けます。このとき、zϕ\mathbf{z}_\phi の velocity は

vϕ=ϕzϕ=cosϕϵsinϕx\mathbf{v}_\phi = \nabla_\phi \mathbf{z}_\phi = \cos\phi\,\boldsymbol{\epsilon} - \sin\phi\,\mathbf{x}

となり、DDIM の更新式は三角関数を使った compact な形

zϕs=cos(ϕsϕt)zϕt+sin(ϕsϕt)v^θ(zϕt)\mathbf{z}_{\phi_s} = \cos(\phi_s - \phi_t)\,\mathbf{z}_{\phi_t} + \sin(\phi_s - \phi_t)\,\hat{\mathbf{v}}_\theta(\mathbf{z}_{\phi_t})

に書き直せます。直感的には、DDIM の更新は angular coordinate における v^ϕt-\hat{\mathbf{v}}_{\phi_t} 方向への移動として理解できます。

v-parameterization in angular coordinate

画像出典: Lilian Weng, “Diffusion Models for Video Generation”。Angular coordinate 上で DDIM が v^ϕt-\hat{\mathbf{v}}_{\phi_t} 方向に zϕs\mathbf{z}_{\phi_s} を更新する様子が示されています。

なぜ video で v-prediction が好まれるのか

ϵ\boldsymbol{\epsilon}-prediction と比べて、v\mathbf{v}-prediction は video generation における color shift を抑える効果があると報告されています。Frame 間で色味が時間的にずれてしまう問題は video 特有の artifact になりやすいため、v\mathbf{v}-prediction が広く使われます。

関連ページ