Reconstruction Guidance for Video Extension
Video Diffusion Models では、生成済みの video を拡張したり、低 frame rate の video の間を埋めて高 frame rate にしたりするために、ある video xa に条件づけて別の video xb を sampling する必要があります。Reconstruction guidance は、Video Diffusion Models(VDM; Ho と Salimans ら, 2022)で提案された、この条件づけ sampling のための手法です。
xb は、xa の autoregressive な拡張、または低 frame rate の xa の間に挟まれる missing frame として扱われます。したがって、xb の sampling は、自分自身に対応する noisy variable に加えて、xa にも条件づけられる必要があります。
条件付き期待値
VDM では、xa で条件づけた xb の posterior を次のように分解します。
Eq[xb∣zt,xa]=Eq[xb∣zt]+αtσt2∇ztblogq(xa∣zt)
第二項は、zt から xa を復元しやすい方向への guidance を表します。q(xa∣zt) の closed form は知られていないため、次のような Gaussian で近似します。
q(xa∣zt)≈N(x^θa(zt),αt2σt2I)
Adjusted denoising model
この近似のもとで、xb の denoising model は次のように修正されます。
x~θb(zt)=x^θb(zt)−2wrαt∇ztb∥xa−x^θa(zt)∥22
ここで、x^θa と x^θb は denoising model による xa と xb の reconstruction、wr は guidance の重みです。wr>1 のように大きな値を使うと、sample quality が改善することが報告されています。
Spatial super-resolution への応用
同じ仕組みは、低解像度 video で条件づけて高解像度 video を生成する場合にも使えます。Reconstruction guidance は、temporal な extension と spatial な super-resolution の両方に対して、自然な条件づけ機構を与えます。
関連ページ