RLHF and Alignment Overview

RLHF (Reinforcement Learning from Human Feedback) と alignment は、LLM を人間の好みや安全要件に合わせる ための post-training の中心 topic です。InstructGPT 以降、chat 系 LLM の品質を支える事実上の標準になりました。

RLHF / DPO map

自作概念図。Pretrained LLM → SFT → reward model / preference data → PPO / GRPO / DPO / IPO / KTO → aligned LLM。

何を解いているのか

LLM の next-token prediction は「もっともありそうな text」を生成しますが、必ずしも「人間にとって好ましい response」ではありません。Alignment は、

指示に従う
役に立つ (helpful)
害がない (harmless)
嘘をつかない (honest)
フォーマットを守る

といった性質を後天的に教え込みます。

三つの主要 family

Family	特徴
Classical RLHF	Reward model + PPO の二段構成
Direct preference optimization	Reward model を陽に持たず、preference loss を直接最適化
Reasoning RL	検証可能 reward (math / code) で long CoT を強化

詳細ページ

ページ	内容
Preference Data	Pairwise / ranking / point-wise の preference 収集
Reward Model	Bradley-Terry、reward model の学習と落とし穴
RLHF with PPO	InstructGPT 系の RLHF pipeline
DPO	Direct Preference Optimization の理論と実装
IPO, KTO, ORPO, SimPO	DPO の variants
Iterative and Online DPO	policy sampling と preference 更新を繰り返す DPO 系手法
GRPO	Group Relative Policy Optimization、DeepSeek-R1 系
DAPO	GRPO を大規模 reasoning RL 向けに改良した手法
Constitutional AI and RLAIF	AI feedback による alignment
Reward Hacking and Alignment Failures	Goodhart、sycophancy、jailbreak

なぜ DPO が話題なのか

PPO 系 RLHF は、

Reward model + value model + reference model + policy で 4 つの大規模 model が同時に必要
学習が不安定
Hyperparameter sensitive

という欠点があります。DPO は、preference data を policy パラメータの分類問題 として直接扱うことで、

Reward model 不要
PPO 不要
実装がシンプルで安定
メモリ要件が大幅に削減

を実現しました。これにより、open-source LLM 界隈で広く使われるようになりました。

数式で見る RLHF pipeline

RLHF は、pretrained policy $\pi_{\mathrm{SFT}}$ を、人間の preference から学習した reward model $r_\phi$ に合わせて更新する手続きとして見られます。PPO 型では、policy $\pi_\theta$ は次の objective を最大化します。

\max_\theta\;\mathbb{E}_{x,y\sim\pi_\theta}\left[r_\phi(x,y) -\beta\,\mathrm{KL}(\pi_\theta(\cdot\mid x)\|\pi_{\mathrm{ref}}(\cdot\mid x))\right]

ここで、 $x$ は prompt、 $y$ は response、 $\pi_{\mathrm{ref}}$ は参照 policy です。この式の気持ちは、「reward model が好む回答を増やしたいが、元の model から離れすぎると文法や安全性が崩れるので KL penalty で抑える」というものです。

RLHF の難しさは、 $r_\phi$ が人間の本当の価値関数そのものではなく、有限の preference data から学習された proxy である点にあります。そのため、reward hacking や over-optimization を防ぐには、KL、評価、red teaming が重要になります。

主なソース

InstructGPT: https://arxiv.org/abs/2203.02155
DPO: https://arxiv.org/abs/2305.18290
Constitutional AI: https://arxiv.org/abs/2212.08073
DeepSeek-R1: https://arxiv.org/abs/2501.12948
DAPO: https://arxiv.org/abs/2503.14476
Note, LLMのための強化学習手法 2025: https://note.com/olachin/n/n9706c13c8678

何を解いているのか​

三つの主要 family​

詳細ページ​

なぜ DPO が話題なのか​

数式で見る RLHF pipeline​

関連ページ​

主なソース​