RLHF and Alignment Overview
RLHF、reward model、DPO 系の direct preference optimization、Constitutional AI、RLAIF の全体像を整理します。
Preference Data
Pairwise preference、ranking、point-wise rating、AI feedback の集め方と落とし穴を整理します。
Reward Model
Bradley-Terry model、reward model の training、reward hacking、process reward model を整理します。
RLHF with PPO
InstructGPT 系の RLHF pipeline、reward model、KL penalty、value model、PPO 更新を整理します。
DPO
Direct Preference Optimization の導出、loss、PPO RLHF との対比、実装上の注意点を整理します。
IPO, KTO, ORPO, SimPO
DPO 系の代表 variants (IPO, KTO, ORPO, SimPO, cDPO) を整理します。
Iterative and Online DPO
DPO を固定 dataset から一歩進め、policy sampling、judge、preference 更新を繰り返す iterative / online DPO を整理します。
GRPO
Group Relative Policy Optimization、DeepSeek-R1 で reasoning RL の核となる GRPO を整理します。
DAPO
GRPO を大規模 reasoning RL 向けに改良した DAPO、Clip-Higher、Dynamic Sampling、token-level loss、overlong reward shaping を整理します。
Constitutional AI and RLAIF
AI feedback を使った alignment、Constitutional AI、RLAIF、principle-based critique を整理します。
Reward Hacking and Alignment Failures
Reward hacking、Goodhart's law、sycophancy、jailbreak、deceptive alignment などの failure mode を整理します。