Skip to main content

Evaluation Metrics Overview

生成モデルの評価は、classification や detection の評価よりも難しいです。理由は、生成画像や生成動画には単一の ground truth が存在しないことが多く、「正しい出力」が無数にあり得るためです。そのため、評価では 何を良いと見なすか を分解し、複数の metric を組み合わせて判断する必要があります。

Generative evaluation taxonomy

自作概念図。生成モデル評価を、visual quality、distribution、prompt alignment、human preference、video evaluation に分解しています。

評価対象の分解

生成モデルの評価では、次の観点を区別します。

観点代表 metric何を見るか
Visual qualityPSNR、SSIM、LPIPS、Aesthetic Score、CLIP-IQA、Q-Align画像そのものがきれいか、破綻していないか
Distribution similarityIS、FID、FD-DINO、CMMD、FVD生成 distribution が実 data distribution に近いか
Prompt alignmentCLIPScore、VQA Score、Gecko Scoreprompt の内容が出力に反映されているか
Human preferenceHPS、PickScore、ImageReward人間が好む出力に近いか
Task-specific evaluationinpainting 用 metric、VBench dimensions用途固有の失敗を測れているか

なぜ単一 metric では足りないのか

単一の metric は便利ですが、生成モデルの品質を一つの数値に潰すと重要な失敗を見落とします。たとえば、FID が低くても prompt に合っていない画像はあり得ます。CLIPScore が高くても、画像が不自然な場合があります。Aesthetic Score が高くても、task-specific な制約を満たさない場合があります。

そのため、実務では次のような組み合わせが有効です。

生成画像評価の基本的な整理

  • Reference がある場合は、PSNR、SSIM、LPIPS のような pairwise metric を使いやすいです。
  • Reference がない text-to-image では、Aesthetic Score、CLIP-IQA、Q-Align、CLIPScore、VQA Score、HPS、PickScore などが候補になります。
  • 多数の生成画像を model level で比較する場合は、FID、FD-DINO、CMMD のような distribution metric が有効です。
  • 少数の画像を評価する場合は、distribution metric より single-image metric や human rating の方が適しています。

評価 metric を選ぶときのチェックリスト

質問推奨される考え方
Reference image はあるかあるなら PSNR / SSIM / LPIPS、ないなら no-reference metric を使う
画像単位で判定したいかAesthetic Score、CLIP-IQA、Q-Align、HPS などを検討する
Model 全体の distribution を比較したいかFID、FD-DINO、CMMD、FVD を検討する
Prompt との一致を見たいかCLIPScore、VQA Score、Gecko Score を使う
人間の好みに近づけたいかHPS、PickScore、ImageReward、人間評価との correlation を見る
Video generation かVBench のような multi-dimensional benchmark を使う

このカテゴリのページ

ページ内容
Generative Image Evaluation Basics生成画像評価の基本分類と代表 metric
Distribution Metrics for Generative ModelsIS、FID、FD-DINO、CMMD、FVD
Prompt Alignment MetricsCLIPScore、VQA Score、Gecko Score
Aesthetic and Preference MetricsAesthetic Score、CLIP-IQA、Q-Align、HPS、PickScore、ImageReward
Evaluation-guided Black-box Optimization画像自動評価を使った hyperparameter 探索
Inpainting Evaluation MetricsBPR / Places365 での inpainting 評価
VBenchvideo generation の 16 dimension benchmark

数式で見る評価指標の三つの型

評価指標は、大きく分けると point-wise、distribution-wise、preference-wise の三種類として整理できます。Point-wise metric は、予測 y^i\hat{y}_i と正解 yiy_i を一対一で比べます。

MSE=1Ni=1Ny^iyi2\mathrm{MSE}=\frac{1}{N}\sum_{i=1}^{N}\|\hat{y}_i-y_i\|^2

Distribution-wise metric は、生成分布 pgp_g と実データ分布 prp_r の距離を測ります。

D(pr,pg)D(p_r,p_g)

Preference-wise metric は、人間または reward model が二つの出力を比べる形で定義されます。

P(yaybx)P(y_a\succ y_b\mid x)

この整理の気持ちは、「正解が一つある task、分布として良ければよい生成 task、人間の好みが本質的な task では、評価の数式そのものが違う」ということです。単一の metric で model の品質を完全に表すことは難しいため、複数の軸を組み合わせて見る必要があります。

関連ページ

主なソース