VBench
VBench は、video generation model を多面的に評価する benchmark suite です。従来の FVD のような単一 score ではなく、video generation quality を 16 個の dimension に分解し、各 dimension に専用 prompt suite と evaluation method を用意します。
自作概念図。VBench は video generation quality を Video Quality と Video-Condition Consistency に分け、合計 16 dimension で評価します。
なぜ VBench が必要か
Video generation では、画像品質だけでなく、temporal consistency、motion smoothness、dynamic degree、prompt alignment、style consistency などを同時に評価する必要があります。FVD や CLIPSIM のような単一 metric だけでは、どの能力が強く、どの能力が弱いかが見えにくくなります。
VBench はこの問題に対して、評価対象を細かい dimension に分けます。
16 dimensions
| Group | Dimension | 何を見るか |
|---|---|---|
| Video Quality | Subject Consistency | subject の見た目が frame 間で保たれるか |
| Video Quality | Background Consistency | background scene が急に変化しないか |
| Video Quality | Temporal Flickering | flicker が少ないか |
| Video Quality | Motion Smoothness | motion が滑らかか |
| Video Quality | Dynamic Degree | 動きが十分にあるか |
| Video Quality | Aesthetic Quality | frame-wise aesthetic quality が高いか |
| Video Quality | Imaging Quality | blur、noise、over-exposure などが少ないか |
| Video-Condition Consistency | Object Class | prompt の object class が出ているか |
| Video-Condition Consistency | Multiple Objects | 複数 object が同時に出ているか |
| Video-Condition Consistency | Human Action | prompt の human action が出ているか |
| Video-Condition Consistency | Color | 指定された color が反映されているか |
| Video-Condition Consistency | Spatial Relationship | object 間の位置関係が合っているか |
| Video-Condition Consistency | Scene | 指定 scene が生成されているか |
| Video-Condition Consistency | Appearance Style | Van Gogh style などの外観 style が合っているか |
| Video-Condition Consistency | Temporal Style | zoom in、pan left などの temporal style が合っているか |
| Video-Condition Consistency | Overall Consistency | prompt 全体との整合性が高いか |
Evaluation Method Suite
VBench は dimension ごとに異なる evaluation pipeline を使います。
| Dimension | 代表的な方法 |
|---|---|
| Subject Consistency | DINO feature の frame 間 cosine similarity |
| Background Consistency | CLIP image feature の frame 間 cosine similarity |
| Object Class / Multiple Objects / Color / Spatial Relationship | GRiT による detection / captioning |
| Appearance Style | CLIP による style text と frame の similarity |
| Temporal Style / Overall Consistency | ViCLIP による video-text similarity |
| Aesthetic / Imaging Quality | image / video quality assessment model |
この設計により、各 dimension がなるべく一つの能力を測るようになります。
Prompt Suite
VBench は各 dimension に対して、およそ 100 個の test prompt を設計しています。たとえば、Subject Consistency では movable subject が動く prompt を用意し、Object Class では指定 object が存在する prompt を用意します。
また、Animal、Architecture、Food、Human、Lifestyle、Plant、Scenery、Vehicles の 8 content category に分けた prompt suite も用意し、model の得意不得意を category 別に分析できます。
Human Alignment
VBench は human preference annotation を使い、automatic evaluation が人間の知覚とどれだけ一致するかを検証しています。Annotator は同じ prompt から生成された video pair を見て、特定 dimension に関してどちらが良いかを選びます。
重要なのは、annotator が 一つの dimension だけに注目する ように設計されている点です。たとえば Appearance Style の評価では、flickering や motion quality ではなく、指定 style に見えるかだけを判断します。
VBench++
VBench++ は VBench を拡張し、次のような設定を含みます。
| Module | 内容 |
|---|---|
| VBench-I2V | image-to-video model の評価 |
| VBench-Long | long video generation の評価 |
| VBench-Trustworthiness | fairness、bias、safety など trustworthiness の評価 |
Text-to-video だけではなく、image-to-video、long video、trustworthiness に評価範囲を広げている点が重要です。
VBench を使うときの注意
- Dimension score を平均した総合点だけで判断しない方が良いです。
- Dynamic Degree と Temporal Consistency は trade-off になりやすいです。
- Prompt suite が target application と合っているかを確認する必要があります。
- 評価 pipeline は external model に依存するため、model bias と failure mode を理解する必要があります。
- 最新 model の leaderboard は更新されるため、比較時には評価日と version を記録する必要があります。
数式で見る video generation の分解評価
Video generation では、各 frame の品質だけでなく、時間方向の一貫性を評価する必要があります。Frame-wise quality は画像評価と同様に各時刻の score を平均できます。
Temporal consistency は、隣接 frame の feature 差や optical flow warping error として測れます。
ここで、 は optical flow による warping です。この式の気持ちは、「frame を推定された motion で動かしたとき、次の frame と自然につながるか」を見ることです。
VBench のような benchmark は、subject consistency、background consistency、motion smoothness、aesthetic quality、text-video alignment などを分けて測ります。これは、video の失敗が「画質」「動き」「prompt 整合性」「物体同一性」のどこで起きているかを切り分けるためです。
関連ページ
- Evaluation Metrics Overview
- Distribution Metrics for Generative Models
- Prompt Alignment Metrics
- Video Diffusion Models
- Sora
主なソース
- VBench GitHub: https://github.com/Vchitect/VBench
- VBench paper: https://arxiv.org/abs/2311.17982
- VBench++ paper: https://arxiv.org/abs/2411.13503
- VBench leaderboard: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard