Evaluation Metrics | Haruk1y Wiki

📄️Evaluation Metrics Overview

生成画像、inpainting、video generation の評価指標を、品質、分布、prompt alignment、preference、task-specific evaluation に分けて整理します。

生成画像評価の基本、visual quality、prompt alignment、human preference、reference-based metric と no-reference metric の違いを整理します。

IS、FID、FD-DINO、CMMD、FVD など、生成 model の distribution similarity を測る評価指標を整理します。

CLIPScore、VQA Score、Gecko Score など、生成画像が prompt に合っているかを測る指標を整理します。

Aesthetic Score、CLIP-IQA、Q-Align、HPS、PickScore、ImageReward など、人間の知覚や好みに近づける生成画像評価指標を整理します。

生成画像の自動評価指標を objective として使い、CFG、Reward Guidance、LoRA scale などを black-box optimization で探索する方法を整理します。

Background Person Removal と Places365 を題材に、inpainting model の評価指標、human correlation、Aesthetic Score、FID、FD-DINO、CMMD、LPIPS を整理します。

Video generation model を 16 dimension に分解して評価する VBench、VBench++、prompt suite、human alignment、評価 method suite を整理します。

Video generation の画質、時間一貫性、prompt alignment、motion quality を評価する指標を整理します。