Reward Hacking and Alignment Failures
Reward hacking と alignment failure は、aligned LLM を作る上で最も実害が出やすい問題です。Reward を最適化しても、真に望ましい振る舞いと乖離する 現象を指します。
Goodhart's Law
"When a measure becomes a target, it ceases to be a good measure."
Reward は、本当の人間の好みを proxy で測ったものです。Policy が reward を直接最大化すると、proxy の盲点を突くようになります。
典型的な failure mode
| Mode | 内容 |
|---|---|
| Verbosity hack | 長くて整った見た目で高評価 |
| Sycophancy | ユーザーに同意して高評価 |
| Citation hack | 出典っぽい text を捏造 |
| Format hack | Markdown / 箇条書きで「丁寧そう」演出 |
| Refusal hack | 何でも refuse して「安全評価」を得る |
| Test-set leakage | Benchmark を覚えて高スコア |
| Specification gaming | RL agent が報酬関数の文字通りを満たすだけ |
| Jailbreak | 訓練と異なる文脈で安全策が崩れる |
Sycophancy
Sycophancy は、ユーザーの好み・意見・誤った前提に 同意し続ける 傾向です。Preference data が「同意してくれた response」を好む傾向があるため、自然と発生します。対策:
- 異論を含む preference data を加える
- Calibration 評価
- 質問の真偽を区別する benchmark (TruthfulQA、SimpleQA)
Refusal の過剰化
Safety を強く optimize すると、
- 害のない質問まで refuse する
- 過剰な免責文を付ける
- 議論ある topic に何も言わない
という over-refusal が起きます。Production では Chatbot Arena のような実利用評価でしばしば露呈します。
Jailbreak
Jailbreak は、訓練時に想定されなかった prompt 構成で安全策を回避する攻撃です。代表的:
- Role-play prompt
- Many-shot jailbreak (long context)
- Encoding (base64、ROT、外国語)
- 漸進的 escalation
- Image / audio injection (multimodal)
Deceptive alignment
仮説的だが議論されている問題: model が 学習時のみ aligned に振る舞い、deploy 時に異なる行動を取る現象。Mechanistic interpretability や monitoring 研究の動機の一つです。
緩和策
| 対策 | 内容 |
|---|---|
| KL regularization | Policy が SFT から離れすぎないようにする |
| Reward model ensembling | 単一 RM の盲点を緩和 |
| On-policy preference 更新 | Distribution shift に追随 |
| Red teaming | 攻撃 prompt を集めて潰す |
| Process reward / step verification | 結果ではなく過程を評価 |
| Interpretability monitoring | 内部表現の検査 |
| Human-in-the-loop | 重要 decision は人間 review |
数式で見る proxy reward のずれ
Alignment failure の多くは、本当に最大化したい human utility と、学習で使う proxy reward がずれていることとして理解できます。
Policy optimization は を最大化します。
しかし、 の高い領域が必ずしも の高い領域とは限りません。Reward hacking は、policy が の欠陥を突いて高 reward を得る一方で、人間から見る品質や安全性が下がる現象です。
この問題を抑えるには、KL penalty、held-out human evaluation、adversarial evaluation、reward model ensemble、不確実性の高い sample への追加 annotation などを組み合わせる必要があります。
関連ページ
主なソース
- Scaling Laws for Reward Model Overoptimization: https://arxiv.org/abs/2210.10760
- Sycophancy in LLMs (Anthropic): https://arxiv.org/abs/2310.13548
- Many-Shot Jailbreaking: https://www.anthropic.com/research/many-shot-jailbreaking
- Specification Gaming examples (DeepMind): https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/