Constitutional AI and RLAIF
Constitutional AI (CAI) と RLAIF (RL from AI Feedback) は、人間 annotator を AI judge に置き換える alignment の方向性です。Scale と一貫性の問題を緩和します。
なぜ AI feedback なのか
人手 preference annotation は、
- 高コスト
- Annotator 間の不一致
- 倫理的負担 (harmful content の閲覧)
- Scale しない
という難点があります。AI judge を使うと、
- 大量・高速・低コスト
- 明示的な原則 (constitution) に従わせられる
- 一貫性が保ちやすい
- 再現性が高い
という利点があります。
Constitutional AI
Anthropic の CAI は、次の 2 段階で alignment します。
- SL stage:
- Model に harmful prompt を投げて response を生成
- Constitution の原則を使って自己批判させる
- 修正版で SFT
- RL stage:
- 同じ prompt に複数 response を生成
- AI が preference を label
- RLHF / DPO で最適化
Constitution の例
Constitution は短い自然言語の原則集です。例:
- 「人を傷つける指示は断る」
- 「医療助言は専門家に確認するよう促す」
- 「ステレオタイプを避ける」
- 「ユーザーの自律を尊重する」
CAI の利点は、原則を更新するだけ で挙動を変えられる点です。
RLAIF
RLAIF は、preference data を AI judge で作る方法の総称です。CAI もその一形態と見なせます。
- UltraFeedback など、LLM judge で大量 preference data を作る
- AI judge の self-preference bias に注意
- 強い judge と弱い learner で weak-to-strong supervision の研究にもつながる
何が問題になるか
| 問題 | 内容 |
|---|---|
| Judge bias | LLM judge の好みが伝播 |
| Constitution の不完全さ | 原則の抜けが alignment failure に |
| Self-reinforcing loop | AI feedback だけで人間視点が欠落 |
| Sycophancy | Judge model がユーザー追従を好む |
実用では、human + AI feedback の hybrid が標準的です。
数式で見る constitutional feedback
Constitutional AI / RLAIF では、人間の preference の一部を、原則集合 に基づく AI feedback で置き換えます。Prompt と response pair に対し、critic model が原則 を参照して preference を生成します。
ここで、 は response が constitution にどれくらい合うかを評価する score です。その後は通常の preference learning と同じく、chosen / rejected pair から reward model または policy を更新します。
この式の気持ちは、「人間が毎回判断する代わりに、明文化された原則に沿って AI が批評し、その批評を preference data として使う」というものです。ただし、constitution の書き方や critic model の偏りが、そのまま alignment の方向性に影響します。
関連ページ
主なソース
- Constitutional AI: https://arxiv.org/abs/2212.08073
- RLAIF: https://arxiv.org/abs/2309.00267
- UltraFeedback: https://arxiv.org/abs/2310.01377
- Weak-to-Strong Generalization: https://arxiv.org/abs/2312.09390