Distribution Metrics for Generative Models
Distribution metric は、生成された sample set の分布が real data distribution にどれだけ近いかを測る指標です。個々の画像が美しいかというより、model 全体として 品質と多様性を両立しているか を見ます。
Inception Score
Inception Score (IS) は、生成画像を Inception v3 classifier に入れ、次の二つを同時に満たすほど高い score になるように設計されています。
- 各画像の class prediction が sharp である。
- 生成画像全体の marginal class distribution が多様である。
IS は初期の GAN evaluation で広く使われましたが、class 内 diversity を直接見ないこと、classifier の class taxonomy に依存すること、人間の知覚とずれることが課題です。
Fréchet Inception Distance
Fréchet Inception Distance (FID) は、real images と generated images を Inception feature space に写し、それぞれを Gaussian distribution と見なして distance を計算します。
ここで、 は real feature の平均と共分散、 は generated feature の平均と共分散です。低いほど real distribution に近いと解釈します。
FID の長所と限界
| 観点 | 内容 |
|---|---|
| 長所 | 品質と多様性をある程度同時に反映できる |
| 長所 | model-level comparison に向いている |
| 限界 | 多数 sample が必要で、少数画像には不安定 |
| 限界 | Inception feature と Gaussian assumption に依存する |
| 限界 | prompt alignment を直接評価しない |
FD-DINO
FD-DINO は、FID の feature extractor を Inception v3 から DINOv2 などの self-supervised vision transformer に置き換える発想です。DINOv2 feature は semantic / perceptual representation が豊かで、classification 用に閉じた Inception feature より生成画像評価に適する場合があります。
FID の式自体はほぼ同じで、feature space を変えることで評価感度を変えます。
CMMD
CMMD は、CLIP feature space 上で Maximum Mean Discrepancy (MMD) を測る metric です。Gaussian assumption に頼る FID と異なり、kernel mean embedding の距離として distribution difference を測ります。
CMMD では、CLIP-L feature と Gaussian RBF kernel を使う構成が代表的です。Text-image model の embedding と相性が良く、inpainting evaluation でも候補になります。
Fréchet Video Distance
Fréchet Video Distance (FVD) は、FID を video feature space に拡張した metric です。生成動画と real video を video recognition model の feature に写し、Gaussian distribution 間の Fréchet distance を測ります。
FVD は video generation の代表的な single-number metric ですが、temporal consistency、motion、prompt alignment、style などを一つの数値に潰すため、VBench のような multi-dimensional benchmark と併用するのが望ましいです。
いつ使うべきか
| 状況 | 推奨 metric |
|---|---|
| GAN / image generator の model-level 比較 | FID、FD-DINO、CMMD |
| 生成画像が少数しかない | Aesthetic Score、CLIP-IQA、human rating を優先 |
| Prompt への忠実度を見たい | CLIPScore、VQA Score、Gecko Score |
| Video generation を総合評価したい | VBench、FVD を併用 |
| Inpainting で大規模 dataset がある | FID、FD-DINO、CMMD、LPIPS |
数式で見る FID / KID / precision-recall の関係
FID は、feature distribution を Gaussian と見なし、平均と共分散の距離を測ります。
KID は、MMD の unbiased estimator として定義されます。
この式の気持ちは、「実データ特徴と生成特徴の分布がどれくらい近いか」を測るというものです。FID は平均と共分散に要約するため計算しやすい一方、multi-modal な失敗を見落とすことがあります。Precision / recall 型 metric は、quality と diversity を分けて見るために使います。
- Precision は「生成 sample が実データ manifold に乗っているか」を見ます。
- Recall は「生成分布が実データ manifold をどれくらい覆えているか」を見ます。
したがって、FID が良くても recall が低ければ mode dropping が疑われ、precision が低ければ破綻 sample が多い可能性があります。
関連ページ
- Generative Image Evaluation Basics
- Prompt Alignment Metrics
- Inpainting Evaluation Metrics
- VBench
- Wasserstein Distance
主なソース
- LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか?(基本編): https://techblog.lycorp.co.jp/ja/20250812a
- GANs Trained by a Two Time-Scale Update Rule: https://arxiv.org/abs/1706.08500
- Improved Precision and Recall Metric for Assessing Generative Models: https://arxiv.org/abs/1904.06991
- Rethinking FID: Towards a Better Evaluation Metric for Image Generation: https://arxiv.org/abs/2401.09603
- Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization: https://arxiv.org/abs/2305.11735