Prompt Alignment Metrics
Prompt Alignment Metrics は、生成画像や生成動画が入力 prompt の意味をどれだけ反映しているかを評価する metric です。Visual quality が高くても、prompt に書かれた object、attribute、relation、style が欠けていれば、text-to-image / text-to-video では失敗です。
CLIPScore
CLIPScore は、CLIP の image encoder と text encoder を使い、画像と prompt の embedding similarity を測ります。
高いほど、画像と text が CLIP feature space 上で近いと解釈します。
CLIPScore の長所と限界
| 観点 | 内容 |
|---|---|
| 長所 | 実装が簡単で高速 |
| 長所 | reference image が不要 |
| 長所 | prompt と image の大まかな一致を測りやすい |
| 限界 | relation、counting、negation に弱いことがある |
| 限界 | 画像品質そのものは直接評価しない |
| 限界 | CLIP の training data と bias に依存する |
VQA Score
VQA Score は、prompt の内容を question に変換し、Visual Question Answering model に画像を見せて yes / no や選択式で判定させる方法です。
たとえば prompt が a red car on the left of a dog であれば、次のような question に分解します。
Is there a car?Is the car red?Is there a dog?Is the car on the left of the dog?
このように、prompt を属性や関係に分解できるため、CLIPScore よりも compositional な評価に向きます。
Gecko Score
Gecko Score も VQA-based な evaluation に近い発想です。LLM を使って prompt から重要な keyword、attribute、relation を抽出し、それらに対する QA pair を生成します。その QA の正答率や confidence を集約して prompt alignment を評価します。
何を見落としやすいか
Prompt alignment metric は、次の失敗に注意が必要です。
- Object が存在しても、数や位置関係が間違っている。
- Text rendering が不正確である。
- Style prompt は合っているが object prompt が欠けている。
- CLIPScore は高いが、画像に artifact が多い。
- VQA model 自体が hallucination する。
実務での使い分け
| 目的 | 向いている metric |
|---|---|
| 大量画像を高速に rough filtering したい | CLIPScore |
| Object / attribute の存在を確認したい | VQA Score |
| 複雑な prompt を分解して評価したい | Gecko Score |
| Text rendering を評価したい | OCR + string matching + VQA |
| 画像品質も同時に見たい | HPS、PickScore、ImageReward と併用 |
数式で見る CLIPScore と text-image alignment
Prompt alignment metric の代表例は、画像 embedding と text embedding の cosine similarity です。CLIPScore は概念的に次のように書けます。
ここで、 は image encoder、 は text encoder です。この式の気持ちは、「生成画像と prompt が、CLIP の共通 embedding 空間でどれくらい近いか」を測るというものです。
ただし、CLIPScore は object count、spatial relation、negation に弱いことがあります。たとえば「赤い球が青い立方体の左にある」のような compositional prompt では、単純な global similarity だけでは関係の正しさを十分に測れません。そのため、VQA-based metric や object detector を使った分解評価を併用することがあります。
関連ページ
- Generative Image Evaluation Basics
- Aesthetic and Preference Metrics
- Evaluation-guided Black-box Optimization
- VBench
- Contrastive Learning Overview
主なソース
- LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか?(基本編): https://techblog.lycorp.co.jp/ja/20250812a
- CLIP: https://arxiv.org/abs/2103.00020
- Evaluating Text-to-Visual Generation with Image-to-Text Generation: https://arxiv.org/abs/2305.10988
- Revisiting Text-to-Image Evaluation with Gecko: https://arxiv.org/abs/2404.16820