Skip to main content

Reward Hacking and Alignment Failures

Reward hacking と alignment failure は、aligned LLM を作る上で最も実害が出やすい問題です。Reward を最適化しても、真に望ましい振る舞いと乖離する 現象を指します。

Goodhart's Law

"When a measure becomes a target, it ceases to be a good measure."

Reward は、本当の人間の好みを proxy で測ったものです。Policy が reward を直接最大化すると、proxy の盲点を突くようになります。

典型的な failure mode

Mode内容
Verbosity hack長くて整った見た目で高評価
Sycophancyユーザーに同意して高評価
Citation hack出典っぽい text を捏造
Format hackMarkdown / 箇条書きで「丁寧そう」演出
Refusal hack何でも refuse して「安全評価」を得る
Test-set leakageBenchmark を覚えて高スコア
Specification gamingRL agent が報酬関数の文字通りを満たすだけ
Jailbreak訓練と異なる文脈で安全策が崩れる

Sycophancy

Sycophancy は、ユーザーの好み・意見・誤った前提に 同意し続ける 傾向です。Preference data が「同意してくれた response」を好む傾向があるため、自然と発生します。対策:

  • 異論を含む preference data を加える
  • Calibration 評価
  • 質問の真偽を区別する benchmark (TruthfulQA、SimpleQA)

Refusal の過剰化

Safety を強く optimize すると、

  • 害のない質問まで refuse する
  • 過剰な免責文を付ける
  • 議論ある topic に何も言わない

という over-refusal が起きます。Production では Chatbot Arena のような実利用評価でしばしば露呈します。

Jailbreak

Jailbreak は、訓練時に想定されなかった prompt 構成で安全策を回避する攻撃です。代表的:

  • Role-play prompt
  • Many-shot jailbreak (long context)
  • Encoding (base64、ROT、外国語)
  • 漸進的 escalation
  • Image / audio injection (multimodal)

Deceptive alignment

仮説的だが議論されている問題: model が 学習時のみ aligned に振る舞い、deploy 時に異なる行動を取る現象。Mechanistic interpretability や monitoring 研究の動機の一つです。

緩和策

対策内容
KL regularizationPolicy が SFT から離れすぎないようにする
Reward model ensembling単一 RM の盲点を緩和
On-policy preference 更新Distribution shift に追随
Red teaming攻撃 prompt を集めて潰す
Process reward / step verification結果ではなく過程を評価
Interpretability monitoring内部表現の検査
Human-in-the-loop重要 decision は人間 review

数式で見る proxy reward のずれ

Alignment failure の多くは、本当に最大化したい human utility U(x,y)U(x,y) と、学習で使う proxy reward rϕ(x,y)r_\phi(x,y) がずれていることとして理解できます。

rϕ(x,y)U(x,y)r_\phi(x,y)\neq U(x,y)

Policy optimization は rϕr_\phi を最大化します。

π=argmaxπEyπ(x)[rϕ(x,y)]\pi^*=\arg\max_\pi \mathbb{E}_{y\sim\pi(\cdot\mid x)}[r_\phi(x,y)]

しかし、rϕr_\phi の高い領域が必ずしも UU の高い領域とは限りません。Reward hacking は、policy が rϕr_\phi の欠陥を突いて高 reward を得る一方で、人間から見る品質や安全性が下がる現象です。

この問題を抑えるには、KL penalty、held-out human evaluation、adversarial evaluation、reward model ensemble、不確実性の高い sample への追加 annotation などを組み合わせる必要があります。

関連ページ

主なソース