Skip to main content

Constitutional AI and RLAIF

Constitutional AI (CAI) と RLAIF (RL from AI Feedback) は、人間 annotator を AI judge に置き換える alignment の方向性です。Scale と一貫性の問題を緩和します。

なぜ AI feedback なのか

人手 preference annotation は、

  • 高コスト
  • Annotator 間の不一致
  • 倫理的負担 (harmful content の閲覧)
  • Scale しない

という難点があります。AI judge を使うと、

  • 大量・高速・低コスト
  • 明示的な原則 (constitution) に従わせられる
  • 一貫性が保ちやすい
  • 再現性が高い

という利点があります。

Constitutional AI

Anthropic の CAI は、次の 2 段階で alignment します。

  1. SL stage:
    • Model に harmful prompt を投げて response を生成
    • Constitution の原則を使って自己批判させる
    • 修正版で SFT
  2. RL stage:
    • 同じ prompt に複数 response を生成
    • AI が preference を label
    • RLHF / DPO で最適化

Constitution の例

Constitution は短い自然言語の原則集です。例:

  • 「人を傷つける指示は断る」
  • 「医療助言は専門家に確認するよう促す」
  • 「ステレオタイプを避ける」
  • 「ユーザーの自律を尊重する」

CAI の利点は、原則を更新するだけ で挙動を変えられる点です。

RLAIF

RLAIF は、preference data を AI judge で作る方法の総称です。CAI もその一形態と見なせます。

  • UltraFeedback など、LLM judge で大量 preference data を作る
  • AI judge の self-preference bias に注意
  • 強い judge と弱い learner で weak-to-strong supervision の研究にもつながる

何が問題になるか

問題内容
Judge biasLLM judge の好みが伝播
Constitution の不完全さ原則の抜けが alignment failure に
Self-reinforcing loopAI feedback だけで人間視点が欠落
SycophancyJudge model がユーザー追従を好む

実用では、human + AI feedback の hybrid が標準的です。

数式で見る constitutional feedback

Constitutional AI / RLAIF では、人間の preference の一部を、原則集合 C\mathcal{C} に基づく AI feedback で置き換えます。Prompt xx と response pair (ya,yb)(y_a,y_b) に対し、critic model が原則 cCc\in\mathcal{C} を参照して preference を生成します。

y^+=argmaxy{ya,yb}Sψ(x,y,c)\hat{y}^+=\arg\max_{y\in\{y_a,y_b\}} S_\psi(x,y,c)

ここで、SψS_\psi は response が constitution にどれくらい合うかを評価する score です。その後は通常の preference learning と同じく、chosen / rejected pair から reward model または policy を更新します。

この式の気持ちは、「人間が毎回判断する代わりに、明文化された原則に沿って AI が批評し、その批評を preference data として使う」というものです。ただし、constitution の書き方や critic model の偏りが、そのまま alignment の方向性に影響します。

関連ページ

主なソース