Skip to main content

RLHF and Alignment

RLHF、reward model、DPO、IPO、KTO、ORPO、SimPO、GRPO、Constitutional AI、RLAIF を整理します。