Conditioned Generation in Diffusion Models
Conditioned generation は、class label、text prompt、image、segmentation map などの condition を使って、生成結果を制御する方法です。
Conditional reverse process
Condition がある場合、reverse process は次のように書けます。
Model は、noisy sample と time step に加えて、condition を受け取り、condition に合う sample を生成するように denoise します。

画像出典: Lilian Weng, “What are Diffusion Models?”。Condition を使って diffusion sampling を誘導する構造が示されています。
代表的な方法
Conditioned generation には、主に次の方法があります。
- Classifier Guidance
- Classifier-Free Guidance
- Text encoder や image encoder を diffusion model に組み込む方法
- ControlNet のように、追加 condition を使って生成を制御する方法