RLHF and Alignment Overview
RLHF (Reinforcement Learning from Human Feedback) と alignment は、LLM を人間の好みや安全要件に合わせる ための post-training の中心 topic です。InstructGPT 以降、chat 系 LLM の品質を支える事実上の標準になりました。
自作概念図。Pretrained LLM → SFT → reward model / preference data → PPO / GRPO / DPO / IPO / KTO → aligned LLM。
何を解いているのか
LLM の next-token prediction は「もっともありそうな text」を生成しますが、必ずしも「人間にとって好ましい response」ではありません。Alignment は、
- 指示に従う
- 役に立つ (helpful)
- 害がない (harmless)
- 嘘をつかない (honest)
- フォーマットを守る
といった性質を後天的に教え込みます。
三つの主要 family
| Family | 特徴 |
|---|---|
| Classical RLHF | Reward model + PPO の二段構成 |
| Direct preference optimization | Reward model を陽に持たず、preference loss を直接最適化 |
| Reasoning RL | 検証可能 reward (math / code) で long CoT を強化 |
詳細ページ
| ページ | 内容 |
|---|---|
| Preference Data | Pairwise / ranking / point-wise の preference 収集 |
| Reward Model | Bradley-Terry、reward model の学習と落とし穴 |
| RLHF with PPO | InstructGPT 系の RLHF pipeline |
| DPO | Direct Preference Optimization の理論と実装 |
| IPO, KTO, ORPO, SimPO | DPO の variants |
| Iterative and Online DPO | policy sampling と preference 更新を繰り返す DPO 系手法 |
| GRPO | Group Relative Policy Optimization、DeepSeek-R1 系 |
| DAPO | GRPO を大規模 reasoning RL 向けに改良した手法 |
| Constitutional AI and RLAIF | AI feedback による alignment |
| Reward Hacking and Alignment Failures | Goodhart、sycophancy、jailbreak |
なぜ DPO が話題なのか
PPO 系 RLHF は、
- Reward model + value model + reference model + policy で 4 つの大規模 model が同時に必要
- 学習が不安定
- Hyperparameter sensitive
という欠点があります。DPO は、preference data を policy パラメータの分類問題 として直接扱うことで、
- Reward model 不要
- PPO 不要
- 実装がシンプルで安定
- メモリ要件が大幅に削減
を実現しました。これにより、open-source LLM 界隈で広く使われるようになりました。
数式で見る RLHF pipeline
RLHF は、pretrained policy を、人間の preference から学習した reward model に合わせて更新する手続きとして見られます。PPO 型では、policy は次の objective を最大化します。
ここで、 は prompt、 は response、 は参照 policy です。この式の気持ちは、「reward model が好む回答を増やしたいが、元の model から離れすぎると文法や安全性が崩れるので KL penalty で抑える」というものです。
RLHF の難しさは、 が人間の本当の価値関数そのものではなく、有限の preference data から学習された proxy である点にあります。そのため、reward hacking や over-optimization を防ぐには、KL、評価、red teaming が重要になります。
関連ページ
主なソース
- InstructGPT: https://arxiv.org/abs/2203.02155
- DPO: https://arxiv.org/abs/2305.18290
- Constitutional AI: https://arxiv.org/abs/2212.08073
- DeepSeek-R1: https://arxiv.org/abs/2501.12948
- DAPO: https://arxiv.org/abs/2503.14476
- Note, LLMのための強化学習手法 2025: https://note.com/olachin/n/n9706c13c8678