Inpainting Evaluation Metrics

Inpainting Evaluation Metrics は、画像の欠損領域や不要物を自然に埋められたかを評価するための metric です。Inpainting では reference image、mask、prompt、human preference の扱いが task によって変わるため、text-to-image の一般評価とは別に考える必要があります。

Inpainting evaluation protocol

自作概念図。Dataset と mask から複数 inpainting model の出力を作り、自動 metric と human score の correlation を見て、task に合う metric を選びます。

Inpainting の評価で難しいこと

Inpainting は、一見すると原画像との比較で評価できそうですが、実際には単純ではありません。除去対象を消した後の背景は一通りではなく、自然に見える補完結果が複数あり得ます。そのため、原画像に近いことだけを良いと見なすと、人間にとって自然な補完を低く評価することがあります。

BPR 評価 dataset の整理

Background Person Removal (BPR) では、背景の人物を除去し、その領域を自然に補完します。LINEヤフー Tech Blog の inpainting 適用編では、BPR 結果の品質差が大きい 10 枚の画像を使い、11 種類の inpainting model を比較しています。

使用された metric は次の通りです。

Metric family	Metric	内容
Single-image quality	Aesthetic Score、CLIP-IQA、Q-Align	画像単体の品質を評価する
Prompt-aware preference	PickScore、ImageReward、HPS v2	prompt と画像を合わせて評価する
Human rating	1〜5 score	人間が inpainting 結果を直接評価する

BPR では、inpainting model に元々 prompt がないため、Phi-3.5-vision-instruct を使って画像説明 prompt を作り、PickScore、ImageReward、HPS v2 に入力しています。

BPR 実験での correlation

BPR dataset では、人間評価との Pearson correlation が次のように報告されています。

Metric	Pearson correlation
Aesthetic Score	0.924
CLIP-IQA	0.187
Q-Align	0.384
PickScore	0.282
ImageReward	0.279
HPS v2	-0.290

この結果では、Aesthetic Score が最も人間評価と近く、prompt-aware preference metric は BPR のような prompt なし task では十分に機能しないことが示唆されます。

Places365 評価 dataset の整理

Places365 は scene recognition などで広く使われる大規模 dataset です。Inpainting 評価では、36,500 枚の画像に対して mask を設定し、複数 model の補完結果を比較します。大規模 dataset であるため、FID、FD-DINO、CMMD のような distribution metric も使いやすくなります。

使用 metric は次のように広がります。

Metric family	Metric	内容
Single-image quality	Aesthetic Score、CLIP-IQA、Q-Align	出力画像単体の品質を測る
Prompt-aware preference	PickScore、ImageReward、HPS v2	prompt と出力の整合性を含めて測る
Pairwise perceptual	LPIPS	原画像と結果画像の feature distance を測る
Distribution	FID、FD-DINO、CMMD	real set と generated set の分布差を測る

Places365 実験での correlation

Places365 では、人間評価との Pearson correlation が次のように報告されています。

Metric	Pearson correlation
Aesthetic Score	0.877
CLIP-IQA	0.063
Q-Align	0.843
PickScore	0.648
ImageReward	0.428
HPS v2	0.387
LPIPS	0.301
FID	0.877
FD-DINO	0.604
CMMD	0.898

この結果では、CMMD が最も高く、Aesthetic Score と FID も高い correlation を示しています。ただし、FID / CMMD 系は大規模 sample を前提にするため、小規模 task では Aesthetic Score のような single-image metric が扱いやすいです。

Metric 選択の実務指針

状況	推奨
画像数が少ない BPR 評価	Aesthetic Score + human review
大規模 benchmark	CMMD、FID、FD-DINO を追加する
原画像との近さを見たい	LPIPS、SSIM、PSNR を補助的に使う
Prompt が自然に定義できる	PickScore、ImageReward、HPS を試す
Mask 周辺の破綻を見たい	Mask-aware crop evaluation を追加する

注意点

Inpainting では「原画像に近い」ことと「自然に見える」ことが一致しない場合があります。
Prompt-aware metric は、prompt を後から生成した場合、その prompt 生成 model の bias を受けます。
Distribution metric は sample 数が少ないと不安定です。
Human evaluation は高コストですが、metric selection の calibration には不可欠です。
Mask 境界の artifact は global Aesthetic Score だけでは見落とす場合があります。

数式で見る mask-aware metric

Inpainting では、画像全体の error だけを見ると、編集対象外の領域が評価を支配してしまいます。そのため、mask $M\in\{0,1\}^{H\times W}$ を使って hole 領域と context 領域を分けます。

\mathcal{L}_{\mathrm{hole}}= \frac{\sum_{\mathbf{p}}M(\mathbf{p})\|\hat{I}(\mathbf{p})-I(\mathbf{p})\|_1} {\sum_{\mathbf{p}}M(\mathbf{p})}

\mathcal{L}_{\mathrm{valid}}= \frac{\sum_{\mathbf{p}}(1-M(\mathbf{p}))\|\hat{I}(\mathbf{p})-I(\mathbf{p})\|_1} {\sum_{\mathbf{p}}(1-M(\mathbf{p}))}

この式の気持ちは、「埋めるべき領域の品質」と「触ってはいけない領域を保てているか」を分けて評価するということです。Inpainting では、pixel error が低くても semantic に不自然な補完があり得るため、LPIPS、FID、人間評価も併用します。

主なソース

LINEヤフー Tech Blog, AIで生成された画像をどのように評価するのか？（インペインティング適用編）: https://techblog.lycorp.co.jp/ja/20250827b
Places365: https://arxiv.org/abs/1610.02055
LPIPS: https://arxiv.org/abs/1801.03924
CMMD: https://arxiv.org/abs/2401.09603
DINOv2: https://arxiv.org/abs/2304.07193

Inpainting の評価で難しいこと​

BPR 評価 dataset の整理​

BPR 実験での correlation​

Places365 評価 dataset の整理​

Places365 実験での correlation​

Metric 選択の実務指針​

注意点​

数式で見る mask-aware metric​

関連ページ​

主なソース​