Skip to main content

VBench

VBench は、video generation model を多面的に評価する benchmark suite です。従来の FVD のような単一 score ではなく、video generation quality を 16 個の dimension に分解し、各 dimension に専用 prompt suite と evaluation method を用意します。

VBench dimension map

自作概念図。VBench は video generation quality を Video Quality と Video-Condition Consistency に分け、合計 16 dimension で評価します。

なぜ VBench が必要か

Video generation では、画像品質だけでなく、temporal consistency、motion smoothness、dynamic degree、prompt alignment、style consistency などを同時に評価する必要があります。FVD や CLIPSIM のような単一 metric だけでは、どの能力が強く、どの能力が弱いかが見えにくくなります。

VBench はこの問題に対して、評価対象を細かい dimension に分けます。

16 dimensions

GroupDimension何を見るか
Video QualitySubject Consistencysubject の見た目が frame 間で保たれるか
Video QualityBackground Consistencybackground scene が急に変化しないか
Video QualityTemporal Flickeringflicker が少ないか
Video QualityMotion Smoothnessmotion が滑らかか
Video QualityDynamic Degree動きが十分にあるか
Video QualityAesthetic Qualityframe-wise aesthetic quality が高いか
Video QualityImaging Qualityblur、noise、over-exposure などが少ないか
Video-Condition ConsistencyObject Classprompt の object class が出ているか
Video-Condition ConsistencyMultiple Objects複数 object が同時に出ているか
Video-Condition ConsistencyHuman Actionprompt の human action が出ているか
Video-Condition ConsistencyColor指定された color が反映されているか
Video-Condition ConsistencySpatial Relationshipobject 間の位置関係が合っているか
Video-Condition ConsistencyScene指定 scene が生成されているか
Video-Condition ConsistencyAppearance StyleVan Gogh style などの外観 style が合っているか
Video-Condition ConsistencyTemporal Stylezoom in、pan left などの temporal style が合っているか
Video-Condition ConsistencyOverall Consistencyprompt 全体との整合性が高いか

Evaluation Method Suite

VBench は dimension ごとに異なる evaluation pipeline を使います。

Dimension代表的な方法
Subject ConsistencyDINO feature の frame 間 cosine similarity
Background ConsistencyCLIP image feature の frame 間 cosine similarity
Object Class / Multiple Objects / Color / Spatial RelationshipGRiT による detection / captioning
Appearance StyleCLIP による style text と frame の similarity
Temporal Style / Overall ConsistencyViCLIP による video-text similarity
Aesthetic / Imaging Qualityimage / video quality assessment model

この設計により、各 dimension がなるべく一つの能力を測るようになります。

Prompt Suite

VBench は各 dimension に対して、およそ 100 個の test prompt を設計しています。たとえば、Subject Consistency では movable subject が動く prompt を用意し、Object Class では指定 object が存在する prompt を用意します。

また、Animal、Architecture、Food、Human、Lifestyle、Plant、Scenery、Vehicles の 8 content category に分けた prompt suite も用意し、model の得意不得意を category 別に分析できます。

Human Alignment

VBench は human preference annotation を使い、automatic evaluation が人間の知覚とどれだけ一致するかを検証しています。Annotator は同じ prompt から生成された video pair を見て、特定 dimension に関してどちらが良いかを選びます。

重要なのは、annotator が 一つの dimension だけに注目する ように設計されている点です。たとえば Appearance Style の評価では、flickering や motion quality ではなく、指定 style に見えるかだけを判断します。

VBench++

VBench++ は VBench を拡張し、次のような設定を含みます。

Module内容
VBench-I2Vimage-to-video model の評価
VBench-Longlong video generation の評価
VBench-Trustworthinessfairness、bias、safety など trustworthiness の評価

Text-to-video だけではなく、image-to-video、long video、trustworthiness に評価範囲を広げている点が重要です。

VBench を使うときの注意

  • Dimension score を平均した総合点だけで判断しない方が良いです。
  • Dynamic Degree と Temporal Consistency は trade-off になりやすいです。
  • Prompt suite が target application と合っているかを確認する必要があります。
  • 評価 pipeline は external model に依存するため、model bias と failure mode を理解する必要があります。
  • 最新 model の leaderboard は更新されるため、比較時には評価日と version を記録する必要があります。

数式で見る video generation の分解評価

Video generation では、各 frame の品質だけでなく、時間方向の一貫性を評価する必要があります。Frame-wise quality は画像評価と同様に各時刻の score を平均できます。

Sframe=1Tt=1Ts(It)S_{\mathrm{frame}}=\frac{1}{T}\sum_{t=1}^{T}s(I_t)

Temporal consistency は、隣接 frame の feature 差や optical flow warping error として測れます。

Ewarp=1T1t=1T1It+1W(It,Ftt+1)1E_{\mathrm{warp}}=\frac{1}{T-1}\sum_{t=1}^{T-1} \left\|I_{t+1}-W(I_t,F_{t\to t+1})\right\|_1

ここで、WW は optical flow Ftt+1F_{t\to t+1} による warping です。この式の気持ちは、「frame tt を推定された motion で動かしたとき、次の frame と自然につながるか」を見ることです。

VBench のような benchmark は、subject consistency、background consistency、motion smoothness、aesthetic quality、text-video alignment などを分けて測ります。これは、video の失敗が「画質」「動き」「prompt 整合性」「物体同一性」のどこで起きているかを切り分けるためです。

関連ページ

主なソース