VBench

VBench は、video generation model を多面的に評価する benchmark suite です。従来の FVD のような単一 score ではなく、video generation quality を 16 個の dimension に分解し、各 dimension に専用 prompt suite と evaluation method を用意します。

VBench dimension map

自作概念図。VBench は video generation quality を Video Quality と Video-Condition Consistency に分け、合計 16 dimension で評価します。

なぜ VBench が必要か

Video generation では、画像品質だけでなく、temporal consistency、motion smoothness、dynamic degree、prompt alignment、style consistency などを同時に評価する必要があります。FVD や CLIPSIM のような単一 metric だけでは、どの能力が強く、どの能力が弱いかが見えにくくなります。

VBench はこの問題に対して、評価対象を細かい dimension に分けます。

16 dimensions

Group	Dimension	何を見るか
Video Quality	Subject Consistency	subject の見た目が frame 間で保たれるか
Video Quality	Background Consistency	background scene が急に変化しないか
Video Quality	Temporal Flickering	flicker が少ないか
Video Quality	Motion Smoothness	motion が滑らかか
Video Quality	Dynamic Degree	動きが十分にあるか
Video Quality	Aesthetic Quality	frame-wise aesthetic quality が高いか
Video Quality	Imaging Quality	blur、noise、over-exposure などが少ないか
Video-Condition Consistency	Object Class	prompt の object class が出ているか
Video-Condition Consistency	Multiple Objects	複数 object が同時に出ているか
Video-Condition Consistency	Human Action	prompt の human action が出ているか
Video-Condition Consistency	Color	指定された color が反映されているか
Video-Condition Consistency	Spatial Relationship	object 間の位置関係が合っているか
Video-Condition Consistency	Scene	指定 scene が生成されているか
Video-Condition Consistency	Appearance Style	Van Gogh style などの外観 style が合っているか
Video-Condition Consistency	Temporal Style	zoom in、pan left などの temporal style が合っているか
Video-Condition Consistency	Overall Consistency	prompt 全体との整合性が高いか

Evaluation Method Suite

VBench は dimension ごとに異なる evaluation pipeline を使います。

Dimension	代表的な方法
Subject Consistency	DINO feature の frame 間 cosine similarity
Background Consistency	CLIP image feature の frame 間 cosine similarity
Object Class / Multiple Objects / Color / Spatial Relationship	GRiT による detection / captioning
Appearance Style	CLIP による style text と frame の similarity
Temporal Style / Overall Consistency	ViCLIP による video-text similarity
Aesthetic / Imaging Quality	image / video quality assessment model

この設計により、各 dimension がなるべく一つの能力を測るようになります。

Prompt Suite

VBench は各 dimension に対して、およそ 100 個の test prompt を設計しています。たとえば、Subject Consistency では movable subject が動く prompt を用意し、Object Class では指定 object が存在する prompt を用意します。

また、Animal、Architecture、Food、Human、Lifestyle、Plant、Scenery、Vehicles の 8 content category に分けた prompt suite も用意し、model の得意不得意を category 別に分析できます。

Human Alignment

VBench は human preference annotation を使い、automatic evaluation が人間の知覚とどれだけ一致するかを検証しています。Annotator は同じ prompt から生成された video pair を見て、特定 dimension に関してどちらが良いかを選びます。

重要なのは、annotator が 一つの dimension だけに注目する ように設計されている点です。たとえば Appearance Style の評価では、flickering や motion quality ではなく、指定 style に見えるかだけを判断します。

VBench++

VBench++ は VBench を拡張し、次のような設定を含みます。

Module	内容
VBench-I2V	image-to-video model の評価
VBench-Long	long video generation の評価
VBench-Trustworthiness	fairness、bias、safety など trustworthiness の評価

Text-to-video だけではなく、image-to-video、long video、trustworthiness に評価範囲を広げている点が重要です。

VBench を使うときの注意

Dimension score を平均した総合点だけで判断しない方が良いです。
Dynamic Degree と Temporal Consistency は trade-off になりやすいです。
Prompt suite が target application と合っているかを確認する必要があります。
評価 pipeline は external model に依存するため、model bias と failure mode を理解する必要があります。
最新 model の leaderboard は更新されるため、比較時には評価日と version を記録する必要があります。

数式で見る video generation の分解評価

Video generation では、各 frame の品質だけでなく、時間方向の一貫性を評価する必要があります。Frame-wise quality は画像評価と同様に各時刻の score を平均できます。

S_{\mathrm{frame}}=\frac{1}{T}\sum_{t=1}^{T}s(I_t)

Temporal consistency は、隣接 frame の feature 差や optical flow warping error として測れます。

E_{\mathrm{warp}}=\frac{1}{T-1}\sum_{t=1}^{T-1} \left\|I_{t+1}-W(I_t,F_{t\to t+1})\right\|_1

ここで、 $W$ は optical flow $F_{t\to t+1}$ による warping です。この式の気持ちは、「frame $t$ を推定された motion で動かしたとき、次の frame と自然につながるか」を見ることです。

VBench のような benchmark は、subject consistency、background consistency、motion smoothness、aesthetic quality、text-video alignment などを分けて測ります。これは、video の失敗が「画質」「動き」「prompt 整合性」「物体同一性」のどこで起きているかを切り分けるためです。

主なソース

VBench GitHub: https://github.com/Vchitect/VBench
VBench paper: https://arxiv.org/abs/2311.17982
VBench++ paper: https://arxiv.org/abs/2411.13503
VBench leaderboard: https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

なぜ VBench が必要か​

16 dimensions​

Evaluation Method Suite​

Prompt Suite​

Human Alignment​

VBench++​

VBench を使うときの注意​

数式で見る video generation の分解評価​

関連ページ​

主なソース​