Skip to main content

Reconstruction Guidance for Video Extension

Video Diffusion Models では、生成済みの video を拡張したり、低 frame rate の video の間を埋めて高 frame rate にしたりするために、ある video xa\mathbf{x}^a に条件づけて別の video xb\mathbf{x}^b を sampling する必要があります。Reconstruction guidance は、Video Diffusion Models(VDM; Ho と Salimans ら, 2022)で提案された、この条件づけ sampling のための手法です。

目的

xb\mathbf{x}^b は、xa\mathbf{x}^a の autoregressive な拡張、または低 frame rate の xa\mathbf{x}^a の間に挟まれる missing frame として扱われます。したがって、xb\mathbf{x}^b の sampling は、自分自身に対応する noisy variable に加えて、xa\mathbf{x}^a にも条件づけられる必要があります。

条件付き期待値

VDM では、xa\mathbf{x}^a で条件づけた xb\mathbf{x}^b の posterior を次のように分解します。

Eq[xbzt,xa]=Eq[xbzt]+σt2αtztblogq(xazt)\mathbb{E}_q[\mathbf{x}^b \mid \mathbf{z}_t, \mathbf{x}^a] = \mathbb{E}_q[\mathbf{x}^b \mid \mathbf{z}_t] + \frac{\sigma_t^2}{\alpha_t}\, \nabla_{\mathbf{z}_t^b} \log q(\mathbf{x}^a \mid \mathbf{z}_t)

第二項は、zt\mathbf{z}_t から xa\mathbf{x}^a を復元しやすい方向への guidance を表します。q(xazt)q(\mathbf{x}^a \mid \mathbf{z}_t) の closed form は知られていないため、次のような Gaussian で近似します。

q(xazt)N ⁣(x^θa(zt),σt2αt2I)q(\mathbf{x}^a \mid \mathbf{z}_t) \approx \mathcal{N}\!\left(\hat{\mathbf{x}}^a_\theta(\mathbf{z}_t),\, \frac{\sigma_t^2}{\alpha_t^2}\mathbf{I}\right)

Adjusted denoising model

この近似のもとで、xb\mathbf{x}^b の denoising model は次のように修正されます。

x~θb(zt)=x^θb(zt)wrαt2ztbxax^θa(zt)22\tilde{\mathbf{x}}^b_\theta(\mathbf{z}_t) = \hat{\mathbf{x}}^b_\theta(\mathbf{z}_t) - \frac{w_r \alpha_t}{2}\, \nabla_{\mathbf{z}_t^b}\, \|\mathbf{x}^a - \hat{\mathbf{x}}^a_\theta(\mathbf{z}_t)\|_2^2

ここで、x^θa\hat{\mathbf{x}}^a_\thetax^θb\hat{\mathbf{x}}^b_\theta は denoising model による xa\mathbf{x}^axb\mathbf{x}^b の reconstruction、wrw_r は guidance の重みです。wr>1w_r > 1 のように大きな値を使うと、sample quality が改善することが報告されています。

Spatial super-resolution への応用

同じ仕組みは、低解像度 video で条件づけて高解像度 video を生成する場合にも使えます。Reconstruction guidance は、temporal な extension と spatial な super-resolution の両方に対して、自然な条件づけ機構を与えます。

関連ページ