Skip to main content

Inpainting Evaluation Metrics

Inpainting Evaluation Metrics は、画像の欠損領域や不要物を自然に埋められたかを評価するための metric です。Inpainting では reference image、mask、prompt、human preference の扱いが task によって変わるため、text-to-image の一般評価とは別に考える必要があります。

Inpainting evaluation protocol

自作概念図。Dataset と mask から複数 inpainting model の出力を作り、自動 metric と human score の correlation を見て、task に合う metric を選びます。

Inpainting の評価で難しいこと

Inpainting は、一見すると原画像との比較で評価できそうですが、実際には単純ではありません。除去対象を消した後の背景は一通りではなく、自然に見える補完結果が複数あり得ます。そのため、原画像に近いことだけを良いと見なすと、人間にとって自然な補完を低く評価することがあります。

BPR 評価 dataset の整理

Background Person Removal (BPR) では、背景の人物を除去し、その領域を自然に補完します。LINEヤフー Tech Blog の inpainting 適用編では、BPR 結果の品質差が大きい 10 枚の画像を使い、11 種類の inpainting model を比較しています。

使用された metric は次の通りです。

Metric familyMetric内容
Single-image qualityAesthetic Score、CLIP-IQA、Q-Align画像単体の品質を評価する
Prompt-aware preferencePickScore、ImageReward、HPS v2prompt と画像を合わせて評価する
Human rating1〜5 score人間が inpainting 結果を直接評価する

BPR では、inpainting model に元々 prompt がないため、Phi-3.5-vision-instruct を使って画像説明 prompt を作り、PickScore、ImageReward、HPS v2 に入力しています。

BPR 実験での correlation

BPR dataset では、人間評価との Pearson correlation が次のように報告されています。

MetricPearson correlation
Aesthetic Score0.924
CLIP-IQA0.187
Q-Align0.384
PickScore0.282
ImageReward0.279
HPS v2-0.290

この結果では、Aesthetic Score が最も人間評価と近く、prompt-aware preference metric は BPR のような prompt なし task では十分に機能しないことが示唆されます。

Places365 評価 dataset の整理

Places365 は scene recognition などで広く使われる大規模 dataset です。Inpainting 評価では、36,500 枚の画像に対して mask を設定し、複数 model の補完結果を比較します。大規模 dataset であるため、FID、FD-DINO、CMMD のような distribution metric も使いやすくなります。

使用 metric は次のように広がります。

Metric familyMetric内容
Single-image qualityAesthetic Score、CLIP-IQA、Q-Align出力画像単体の品質を測る
Prompt-aware preferencePickScore、ImageReward、HPS v2prompt と出力の整合性を含めて測る
Pairwise perceptualLPIPS原画像と結果画像の feature distance を測る
DistributionFID、FD-DINO、CMMDreal set と generated set の分布差を測る

Places365 実験での correlation

Places365 では、人間評価との Pearson correlation が次のように報告されています。

MetricPearson correlation
Aesthetic Score0.877
CLIP-IQA0.063
Q-Align0.843
PickScore0.648
ImageReward0.428
HPS v20.387
LPIPS0.301
FID0.877
FD-DINO0.604
CMMD0.898

この結果では、CMMD が最も高く、Aesthetic Score と FID も高い correlation を示しています。ただし、FID / CMMD 系は大規模 sample を前提にするため、小規模 task では Aesthetic Score のような single-image metric が扱いやすいです。

Metric 選択の実務指針

状況推奨
画像数が少ない BPR 評価Aesthetic Score + human review
大規模 benchmarkCMMD、FID、FD-DINO を追加する
原画像との近さを見たいLPIPS、SSIM、PSNR を補助的に使う
Prompt が自然に定義できるPickScore、ImageReward、HPS を試す
Mask 周辺の破綻を見たいMask-aware crop evaluation を追加する

注意点

  • Inpainting では「原画像に近い」ことと「自然に見える」ことが一致しない場合があります。
  • Prompt-aware metric は、prompt を後から生成した場合、その prompt 生成 model の bias を受けます。
  • Distribution metric は sample 数が少ないと不安定です。
  • Human evaluation は高コストですが、metric selection の calibration には不可欠です。
  • Mask 境界の artifact は global Aesthetic Score だけでは見落とす場合があります。

数式で見る mask-aware metric

Inpainting では、画像全体の error だけを見ると、編集対象外の領域が評価を支配してしまいます。そのため、mask M{0,1}H×WM\in\{0,1\}^{H\times W} を使って hole 領域と context 領域を分けます。

Lhole=pM(p)I^(p)I(p)1pM(p)\mathcal{L}_{\mathrm{hole}}= \frac{\sum_{\mathbf{p}}M(\mathbf{p})\|\hat{I}(\mathbf{p})-I(\mathbf{p})\|_1} {\sum_{\mathbf{p}}M(\mathbf{p})} Lvalid=p(1M(p))I^(p)I(p)1p(1M(p))\mathcal{L}_{\mathrm{valid}}= \frac{\sum_{\mathbf{p}}(1-M(\mathbf{p}))\|\hat{I}(\mathbf{p})-I(\mathbf{p})\|_1} {\sum_{\mathbf{p}}(1-M(\mathbf{p}))}

この式の気持ちは、「埋めるべき領域の品質」と「触ってはいけない領域を保てているか」を分けて評価するということです。Inpainting では、pixel error が低くても semantic に不自然な補完があり得るため、LPIPS、FID、人間評価も併用します。

関連ページ

主なソース