Skip to main content

RLHF and Alignment Overview

RLHF (Reinforcement Learning from Human Feedback) と alignment は、LLM を人間の好みや安全要件に合わせる ための post-training の中心 topic です。InstructGPT 以降、chat 系 LLM の品質を支える事実上の標準になりました。

RLHF / DPO map

自作概念図。Pretrained LLM → SFT → reward model / preference data → PPO / GRPO / DPO / IPO / KTO → aligned LLM。

何を解いているのか

LLM の next-token prediction は「もっともありそうな text」を生成しますが、必ずしも「人間にとって好ましい response」ではありません。Alignment は、

  • 指示に従う
  • 役に立つ (helpful)
  • 害がない (harmless)
  • 嘘をつかない (honest)
  • フォーマットを守る

といった性質を後天的に教え込みます。

三つの主要 family

Family特徴
Classical RLHFReward model + PPO の二段構成
Direct preference optimizationReward model を陽に持たず、preference loss を直接最適化
Reasoning RL検証可能 reward (math / code) で long CoT を強化

詳細ページ

ページ内容
Preference DataPairwise / ranking / point-wise の preference 収集
Reward ModelBradley-Terry、reward model の学習と落とし穴
RLHF with PPOInstructGPT 系の RLHF pipeline
DPODirect Preference Optimization の理論と実装
IPO, KTO, ORPO, SimPODPO の variants
Iterative and Online DPOpolicy sampling と preference 更新を繰り返す DPO 系手法
GRPOGroup Relative Policy Optimization、DeepSeek-R1 系
DAPOGRPO を大規模 reasoning RL 向けに改良した手法
Constitutional AI and RLAIFAI feedback による alignment
Reward Hacking and Alignment FailuresGoodhart、sycophancy、jailbreak

なぜ DPO が話題なのか

PPO 系 RLHF は、

  • Reward model + value model + reference model + policy で 4 つの大規模 model が同時に必要
  • 学習が不安定
  • Hyperparameter sensitive

という欠点があります。DPO は、preference data を policy パラメータの分類問題 として直接扱うことで、

  • Reward model 不要
  • PPO 不要
  • 実装がシンプルで安定
  • メモリ要件が大幅に削減

を実現しました。これにより、open-source LLM 界隈で広く使われるようになりました。

数式で見る RLHF pipeline

RLHF は、pretrained policy πSFT\pi_{\mathrm{SFT}} を、人間の preference から学習した reward model rϕr_\phi に合わせて更新する手続きとして見られます。PPO 型では、policy πθ\pi_\theta は次の objective を最大化します。

maxθ  Ex,yπθ[rϕ(x,y)βKL(πθ(x)πref(x))]\max_\theta\;\mathbb{E}_{x,y\sim\pi_\theta}\left[r_\phi(x,y) -\beta\,\mathrm{KL}(\pi_\theta(\cdot\mid x)\|\pi_{\mathrm{ref}}(\cdot\mid x))\right]

ここで、xx は prompt、yy は response、πref\pi_{\mathrm{ref}} は参照 policy です。この式の気持ちは、「reward model が好む回答を増やしたいが、元の model から離れすぎると文法や安全性が崩れるので KL penalty で抑える」というものです。

RLHF の難しさは、rϕr_\phi が人間の本当の価値関数そのものではなく、有限の preference data から学習された proxy である点にあります。そのため、reward hacking や over-optimization を防ぐには、KL、評価、red teaming が重要になります。

関連ページ

主なソース