Parameterization for Video Diffusion

Video Diffusion Models では、denoising model が何を予測するかによって、training の安定性や生成品質が変わります。代表的な parameterization には、 $\boldsymbol{\epsilon}$ -prediction と $\mathbf{v}$ -prediction があります。

Forward process の定義

Real data から sample された $\mathbf{x} \sim q_{\text{real}}$ に対して、Gaussian noise を時間方向に少しずつ加えた noisy variable の系列を $\{\mathbf{z}_t \mid t = 1, \dots, T\}$ と書きます。Differentiable な noise schedule $(\alpha_t, \sigma_t)$ を使うと、forward process は次のように書けます。

q(\mathbf{z}_t \mid \mathbf{x}) = \mathcal{N}(\mathbf{z}_t; \alpha_t \mathbf{x}, \sigma_t^2 \mathbf{I})

$0 \leq s < t \leq T$ に対しては、log signal-to-noise ratio $\lambda_t = \log[\alpha_t^2 / \sigma_t^2]$ を使うと、DDIM の更新式は次のように書けます。

q(\mathbf{z}_t \mid \mathbf{z}_s) = \mathcal{N}\!\left(\mathbf{z}_t; \frac{\alpha_t}{\alpha_s}\mathbf{z}_s, \sigma_{t \mid s}^2 \mathbf{I}\right), \qquad \sigma_{t \mid s}^2 = (1 - e^{\lambda_t - \lambda_s})\sigma_t^2

v-parameterization

Salimans と Ho（2022）によって提案された $\mathbf{v}$ -prediction は、次のように定義されます。

\mathbf{v} = \alpha_t \boldsymbol{\epsilon} - \sigma_t \mathbf{x}

Angular coordinate を使うと、この parameterization の意味が見えやすくなります。 $\phi_t = \arctan(\sigma_t / \alpha_t)$ と置くと、 $\alpha_t = \cos\phi$ 、 $\sigma_t = \sin\phi$ 、 $\mathbf{z}_\phi = \cos\phi\,\mathbf{x} + \sin\phi\,\boldsymbol{\epsilon}$ と書けます。このとき、 $\mathbf{z}_\phi$ の velocity は

\mathbf{v}_\phi = \nabla_\phi \mathbf{z}_\phi = \cos\phi\,\boldsymbol{\epsilon} - \sin\phi\,\mathbf{x}

となり、DDIM の更新式は三角関数を使った compact な形

\mathbf{z}_{\phi_s} = \cos(\phi_s - \phi_t)\,\mathbf{z}_{\phi_t} + \sin(\phi_s - \phi_t)\,\hat{\mathbf{v}}_\theta(\mathbf{z}_{\phi_t})

に書き直せます。直感的には、DDIM の更新は angular coordinate における $-\hat{\mathbf{v}}_{\phi_t}$ 方向への移動として理解できます。

v-parameterization in angular coordinate

画像出典: Lilian Weng, “Diffusion Models for Video Generation”。Angular coordinate 上で DDIM が $-\hat{\mathbf{v}}_{\phi_t}$ 方向に $\mathbf{z}_{\phi_s}$ を更新する様子が示されています。

なぜ video で v-prediction が好まれるのか

$\boldsymbol{\epsilon}$ -prediction と比べて、 $\mathbf{v}$ -prediction は video generation における color shift を抑える効果があると報告されています。Frame 間で色味が時間的にずれてしまう問題は video 特有の artifact になりやすいため、 $\mathbf{v}$ -prediction が広く使われます。

Forward process の定義​

v-parameterization​

なぜ video で v-prediction が好まれるのか​

関連ページ​

Forward process の定義

v-parameterization

なぜ video で v-prediction が好まれるのか

関連ページ