Video Generation Evaluation
Video generation の評価は、image generation よりも難しいです。各 frame の画質だけでなく、時間方向の一貫性、object identity、motion realism、prompt alignment を同時に見る必要があります。
Frame-wise quality
Frame ごとの image quality score を とすると、単純な frame-wise score は平均で書けます。
ここで、 は aesthetic score、FID feature score、image quality model などです。この式は、「各 frame を静止画として見たときの品質」を測ります。ただし、frame-wise score だけでは flicker や identity drift を見落とします。
Temporal consistency
Optical flow で frame を warp し、次 frame と比較すると、時間一貫性を測れます。
ここで、 は warping function です。この式の気持ちは、「motion に沿って見たとき、同じ物体の見た目が急に変わらないか」を見るというものです。
Feature 空間で identity consistency を測ることもあります。
は face encoder、object encoder、CLIP image encoder などです。
Text-video alignment
Text prompt と video の alignment は、frame embedding または video embedding と text embedding の similarity で測ります。
Frame-level に分解する場合は、次のように平均します。
ただし、global CLIP similarity は spatial relation、counting、temporal action を十分に測れないことがあります。そのため、VQA-based evaluation や object / action detector を併用します。
分解評価の必要性
Video generation の失敗は、次のように分解して見ると理解しやすいです。
| 軸 | 典型的な失敗 |
|---|---|
| Frame quality | blur、artifact、低解像感 |
| Temporal consistency | flicker、identity drift |
| Motion quality | 不自然な物理、静止しすぎ |
| Prompt alignment | object / action / relation の欠落 |
| Camera consistency | 不自然な viewpoint jump |
| Long-range consistency | 長尺での style / identity collapse |
単一 metric だけでは、どの軸が壊れているかを判断しにくいです。VBench のような benchmark は、この分解評価を体系化するために使われます。
関連ページ
主なソース
- VBench: https://arxiv.org/abs/2311.17982
- FVD: https://openreview.net/forum?id=rylgEULtdN
- Video diffusion survey: https://arxiv.org/abs/2405.03150