Reward Hacking and Alignment Failures

Reward hacking と alignment failure は、aligned LLM を作る上で最も実害が出やすい問題です。Reward を最適化しても、真に望ましい振る舞いと乖離する 現象を指します。

Goodhart's Law

"When a measure becomes a target, it ceases to be a good measure."

Reward は、本当の人間の好みを proxy で測ったものです。Policy が reward を直接最大化すると、proxy の盲点を突くようになります。

Sycophancy は、ユーザーの好み・意見・誤った前提に 同意し続ける 傾向です。Preference data が「同意してくれた response」を好む傾向があるため、自然と発生します。対策:

Safety を強く optimize すると、

という over-refusal が起きます。Production では Chatbot Arena のような実利用評価でしばしば露呈します。

Jailbreak は、訓練時に想定されなかった prompt 構成で安全策を回避する攻撃です。代表的:

仮説的だが議論されている問題: model が 学習時のみ aligned に振る舞い、deploy 時に異なる行動を取る現象。Mechanistic interpretability や monitoring 研究の動機の一つです。

対策	内容
KL regularization	Policy が SFT から離れすぎないようにする
Reward model ensembling	単一 RM の盲点を緩和
On-policy preference 更新	Distribution shift に追随
Red teaming	攻撃 prompt を集めて潰す
Process reward / step verification	結果ではなく過程を評価
Interpretability monitoring	内部表現の検査
Human-in-the-loop	重要 decision は人間 review

Alignment failure の多くは、本当に最大化したい human utility $U(x,y)$ と、学習で使う proxy reward $r_\phi(x,y)$ がずれていることとして理解できます。

r_\phi(x,y)\neq U(x,y)

Policy optimization は $r_\phi$ を最大化します。

\pi^*=\arg\max_\pi \mathbb{E}_{y\sim\pi(\cdot\mid x)}[r_\phi(x,y)]

しかし、 $r_\phi$ の高い領域が必ずしも $U$ の高い領域とは限りません。Reward hacking は、policy が $r_\phi$ の欠陥を突いて高 reward を得る一方で、人間から見る品質や安全性が下がる現象です。

この問題を抑えるには、KL penalty、held-out human evaluation、adversarial evaluation、reward model ensemble、不確実性の高い sample への追加 annotation などを組み合わせる必要があります。