Evaluation Metrics Overview
生成モデルの評価は、classification や detection の評価よりも難しいです。理由は、生成画像や生成動画には単一の ground truth が存在しないことが多く、「正しい出力」が無数にあり得るためです。そのため、評価では 何を良いと見なすか を分解し、複数の metric を組み合わせて判断する必要があります。
自作概念図。生成モデル評価を、visual quality、distribution、prompt alignment、human preference、video evaluation に分解しています。
評価対象の分解
生成モデルの評価では、次の観点を区別します。
| 観点 | 代表 metric | 何を見るか |
|---|---|---|
| Visual quality | PSNR、SSIM、LPIPS、Aesthetic Score、CLIP-IQA、Q-Align | 画像そのものがきれいか、破綻していないか |
| Distribution similarity | IS、FID、FD-DINO、CMMD、FVD | 生成 distribution が実 data distribution に近いか |
| Prompt alignment | CLIPScore、VQA Score、Gecko Score | prompt の内容が出力に反映されているか |
| Human preference | HPS、PickScore、ImageReward | 人間が好む出力に近いか |
| Task-specific evaluation | inpainting 用 metric、VBench dimensions | 用途固有の失敗を測れているか |
なぜ単一 metric では足りないのか
単一の metric は便利ですが、生成モデルの品質を一つの数値に潰すと重要な失敗を見落とします。たとえば、FID が低くても prompt に合っていない画像はあり得ます。CLIPScore が高くても、画像が不自然な場合があります。Aesthetic Score が高くても、task-specific な制約を満たさない場合があります。
そのため、実務では次のような組み合わせが有効です。
生成画像評価の基本的な整理
- Reference がある場合は、PSNR、SSIM、LPIPS のような pairwise metric を使いやすいです。
- Reference がない text-to-image では、Aesthetic Score、CLIP-IQA、Q-Align、CLIPScore、VQA Score、HPS、PickScore などが候補になります。
- 多数の生成画像を model level で比較する場合は、FID、FD-DINO、CMMD のような distribution metric が有効です。
- 少数の画像を評価する場合は、distribution metric より single-image metric や human rating の方が適しています。
評価 metric を選ぶときのチェックリスト
| 質問 | 推奨される考え方 |
|---|---|
| Reference image はあるか | あるなら PSNR / SSIM / LPIPS、ないなら no-reference metric を使う |
| 画像単位で判定したいか | Aesthetic Score、CLIP-IQA、Q-Align、HPS などを検討する |
| Model 全体の distribution を比較したいか | FID、FD-DINO、CMMD、FVD を検討する |
| Prompt との一致を見たいか | CLIPScore、VQA Score、Gecko Score を使う |
| 人間の好みに近づけたいか | HPS、PickScore、ImageReward、人間評価との correlation を見る |
| Video generation か | VBench のような multi-dimensional benchmark を使う |
このカテゴリのページ
| ページ | 内容 |
|---|---|
| Generative Image Evaluation Basics | 生成画像評価の基本分類と代表 metric |
| Distribution Metrics for Generative Models | IS、FID、FD-DINO、CMMD、FVD |
| Prompt Alignment Metrics | CLIPScore、VQA Score、Gecko Score |
| Aesthetic and Preference Metrics | Aesthetic Score、CLIP-IQA、Q-Align、HPS、PickScore、ImageReward |
| Evaluation-guided Black-box Optimization | 画像自動評価を使った hyperparameter 探索 |
| Inpainting Evaluation Metrics | BPR / Places365 での inpainting 評価 |
| VBench | video generation の 16 dimension benchmark |
数式で見る評価指標の三つの型
評価指標は、大きく分けると point-wise、distribution-wise、preference-wise の三種類として整理できます。Point-wise metric は、予測 と正解 を一対一で比べます。
Distribution-wise metric は、生成分布 と実データ分布 の距離を測ります。
Preference-wise metric は、人間または reward model が二つの出力を比べる形で定義されます。
この整理の気持ちは、「正解が一つある task、分布として良ければよい生成 task、人間の好みが本質的な task では、評価の数式そのものが違う」ということです。単一の metric で model の品質を完全に表すことは難しいため、複数の軸を組み合わせて見る必要があります。
関連ページ
主なソース
- LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか?(基本編): https://techblog.lycorp.co.jp/ja/20250812a
- LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか?(ブラックボックス最適化適用編): https://techblog.lycorp.co.jp/ja/20250826a
- LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか?(インペインティング適用編): https://techblog.lycorp.co.jp/ja/20250827b
- VBench GitHub: https://github.com/Vchitect/VBench