Inpainting Evaluation Metrics
Inpainting Evaluation Metrics は、画像の欠損領域や不要物を自然に埋められたかを評価するための metric です。Inpainting では reference image、mask、prompt、human preference の扱いが task によって変わるため、text-to-image の一般評価とは別に考える必要があります。
自作概念図。Dataset と mask から複数 inpainting model の出力を作り、自動 metric と human score の correlation を見て、task に合う metric を選びます。
Inpainting の評価で難しいこと
Inpainting は、一見すると原画像との比較で評価できそうですが、実際には単純ではありません。除去対象を消した後の背景は一通りではなく、自然に見える補完結果が複数あり得ます。そのため、原画像に近いことだけを良いと見なすと、人間にとって自然な補完を低く評価することがあります。
BPR 評価 dataset の整理
Background Person Removal (BPR) では、背景の人物を除去し、その領域を自然に補完します。LINEヤフー Tech Blog の inpainting 適用編では、BPR 結果の品質差が大きい 10 枚の画像を使い、11 種類の inpainting model を比較しています。
使用された metric は次の通りです。
| Metric family | Metric | 内容 |
|---|---|---|
| Single-image quality | Aesthetic Score、CLIP-IQA、Q-Align | 画像単体の品質を評価する |
| Prompt-aware preference | PickScore、ImageReward、HPS v2 | prompt と画像を合わせて評価する |
| Human rating | 1〜5 score | 人間が inpainting 結果を直接評価する |
BPR では、inpainting model に元々 prompt がないため、Phi-3.5-vision-instruct を使って画像説明 prompt を作り、PickScore、ImageReward、HPS v2 に入力しています。
BPR 実験での correlation
BPR dataset では、人間評価との Pearson correlation が次のように報告されています。
| Metric | Pearson correlation |
|---|---|
| Aesthetic Score | 0.924 |
| CLIP-IQA | 0.187 |
| Q-Align | 0.384 |
| PickScore | 0.282 |
| ImageReward | 0.279 |
| HPS v2 | -0.290 |
この結果では、Aesthetic Score が最も人間評価と近く、prompt-aware preference metric は BPR のような prompt なし task では十分に機能しないことが示唆されます。
Places365 評価 dataset の整理
Places365 は scene recognition などで広く使われる大規模 dataset です。Inpainting 評価では、36,500 枚の画像に対して mask を設定し、複数 model の補完結果を比較します。大規模 dataset であるため、FID、FD-DINO、CMMD のような distribution metric も使いやすくなります。
使用 metric は次のように広がります。
| Metric family | Metric | 内容 |
|---|---|---|
| Single-image quality | Aesthetic Score、CLIP-IQA、Q-Align | 出力画像単体の品質を測る |
| Prompt-aware preference | PickScore、ImageReward、HPS v2 | prompt と出力の整合性を含めて測る |
| Pairwise perceptual | LPIPS | 原画像と結果画像の feature distance を測る |
| Distribution | FID、FD-DINO、CMMD | real set と generated set の分布差を測る |
Places365 実験での correlation
Places365 では、人間評価との Pearson correlation が次のように報告されています。
| Metric | Pearson correlation |
|---|---|
| Aesthetic Score | 0.877 |
| CLIP-IQA | 0.063 |
| Q-Align | 0.843 |
| PickScore | 0.648 |
| ImageReward | 0.428 |
| HPS v2 | 0.387 |
| LPIPS | 0.301 |
| FID | 0.877 |
| FD-DINO | 0.604 |
| CMMD | 0.898 |
この結果では、CMMD が最も高く、Aesthetic Score と FID も高い correlation を示しています。ただし、FID / CMMD 系は大規模 sample を前提にするため、小規模 task では Aesthetic Score のような single-image metric が扱いやすいです。
Metric 選択の実務指針
| 状況 | 推奨 |
|---|---|
| 画像数が少ない BPR 評価 | Aesthetic Score + human review |
| 大規模 benchmark | CMMD、FID、FD-DINO を追加する |
| 原画像との近さを見たい | LPIPS、SSIM、PSNR を補助的に使う |
| Prompt が自然に定義できる | PickScore、ImageReward、HPS を試す |
| Mask 周辺の破綻を見たい | Mask-aware crop evaluation を追加する |
注意点
- Inpainting では「原画像に近い」ことと「自然に見える」ことが一致しない場合があります。
- Prompt-aware metric は、prompt を後から生成した場合、その prompt 生成 model の bias を受けます。
- Distribution metric は sample 数が少ないと不安定です。
- Human evaluation は高コストですが、metric selection の calibration には不可欠です。
- Mask 境界の artifact は global Aesthetic Score だけでは見落とす場合があります。
数式で見る mask-aware metric
Inpainting では、画像全体の error だけを見ると、編集対象外の領域が評価を支配してしまいます。そのため、mask を使って hole 領域と context 領域を分けます。
この式の気持ちは、「埋めるべき領域の品質」と「触ってはいけない領域を保てているか」を分けて評価するということです。Inpainting では、pixel error が低くても semantic に不自然な補完があり得るため、LPIPS、FID、人間評価も併用します。
関連ページ
- Generative Image Evaluation Basics
- Distribution Metrics for Generative Models
- Aesthetic and Preference Metrics
- Diffusion Models
- Latent Diffusion
主なソース
- LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか?(インペインティング適用編): https://techblog.lycorp.co.jp/ja/20250827b
- Places365: https://arxiv.org/abs/1610.02055
- LPIPS: https://arxiv.org/abs/1801.03924
- CMMD: https://arxiv.org/abs/2401.09603
- DINOv2: https://arxiv.org/abs/2304.07193