Evaluation Metrics Overview

生成モデルの評価は、classification や detection の評価よりも難しいです。理由は、生成画像や生成動画には単一の ground truth が存在しないことが多く、「正しい出力」が無数にあり得るためです。そのため、評価では 何を良いと見なすか を分解し、複数の metric を組み合わせて判断する必要があります。

Generative evaluation taxonomy

自作概念図。生成モデル評価を、visual quality、distribution、prompt alignment、human preference、video evaluation に分解しています。

評価対象の分解

生成モデルの評価では、次の観点を区別します。

観点	代表 metric	何を見るか
Visual quality	PSNR、SSIM、LPIPS、Aesthetic Score、CLIP-IQA、Q-Align	画像そのものがきれいか、破綻していないか
Distribution similarity	IS、FID、FD-DINO、CMMD、FVD	生成 distribution が実 data distribution に近いか
Prompt alignment	CLIPScore、VQA Score、Gecko Score	prompt の内容が出力に反映されているか
Human preference	HPS、PickScore、ImageReward	人間が好む出力に近いか
Task-specific evaluation	inpainting 用 metric、VBench dimensions	用途固有の失敗を測れているか

なぜ単一 metric では足りないのか

単一の metric は便利ですが、生成モデルの品質を一つの数値に潰すと重要な失敗を見落とします。たとえば、FID が低くても prompt に合っていない画像はあり得ます。CLIPScore が高くても、画像が不自然な場合があります。Aesthetic Score が高くても、task-specific な制約を満たさない場合があります。

そのため、実務では次のような組み合わせが有効です。

生成画像評価の基本的な整理

Reference がある場合は、PSNR、SSIM、LPIPS のような pairwise metric を使いやすいです。
Reference がない text-to-image では、Aesthetic Score、CLIP-IQA、Q-Align、CLIPScore、VQA Score、HPS、PickScore などが候補になります。
多数の生成画像を model level で比較する場合は、FID、FD-DINO、CMMD のような distribution metric が有効です。
少数の画像を評価する場合は、distribution metric より single-image metric や human rating の方が適しています。

評価 metric を選ぶときのチェックリスト

質問	推奨される考え方
Reference image はあるか	あるなら PSNR / SSIM / LPIPS、ないなら no-reference metric を使う
画像単位で判定したいか	Aesthetic Score、CLIP-IQA、Q-Align、HPS などを検討する
Model 全体の distribution を比較したいか	FID、FD-DINO、CMMD、FVD を検討する
Prompt との一致を見たいか	CLIPScore、VQA Score、Gecko Score を使う
人間の好みに近づけたいか	HPS、PickScore、ImageReward、人間評価との correlation を見る
Video generation か	VBench のような multi-dimensional benchmark を使う

このカテゴリのページ

ページ	内容
Generative Image Evaluation Basics	生成画像評価の基本分類と代表 metric
Distribution Metrics for Generative Models	IS、FID、FD-DINO、CMMD、FVD
Prompt Alignment Metrics	CLIPScore、VQA Score、Gecko Score
Aesthetic and Preference Metrics	Aesthetic Score、CLIP-IQA、Q-Align、HPS、PickScore、ImageReward
Evaluation-guided Black-box Optimization	画像自動評価を使った hyperparameter 探索
Inpainting Evaluation Metrics	BPR / Places365 での inpainting 評価
VBench	video generation の 16 dimension benchmark

数式で見る評価指標の三つの型

評価指標は、大きく分けると point-wise、distribution-wise、preference-wise の三種類として整理できます。Point-wise metric は、予測 $\hat{y}_i$ と正解 $y_i$ を一対一で比べます。

\mathrm{MSE}=\frac{1}{N}\sum_{i=1}^{N}\|\hat{y}_i-y_i\|^2

Distribution-wise metric は、生成分布 $p_g$ と実データ分布 $p_r$ の距離を測ります。

D(p_r,p_g)

Preference-wise metric は、人間または reward model が二つの出力を比べる形で定義されます。

P(y_a\succ y_b\mid x)

この整理の気持ちは、「正解が一つある task、分布として良ければよい生成 task、人間の好みが本質的な task では、評価の数式そのものが違う」ということです。単一の metric で model の品質を完全に表すことは難しいため、複数の軸を組み合わせて見る必要があります。

主なソース

LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか？（基本編）: https://techblog.lycorp.co.jp/ja/20250812a
LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか？（ブラックボックス最適化適用編）: https://techblog.lycorp.co.jp/ja/20250826a
LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか？（インペインティング適用編）: https://techblog.lycorp.co.jp/ja/20250827b
VBench GitHub: https://github.com/Vchitect/VBench

評価対象の分解​

なぜ単一 metric では足りないのか​

生成画像評価の基本的な整理​

評価 metric を選ぶときのチェックリスト​

このカテゴリのページ​

数式で見る評価指標の三つの型​

関連ページ​

主なソース​