Constitutional AI and RLAIF

Constitutional AI (CAI) と RLAIF (RL from AI Feedback) は、人間 annotator を AI judge に置き換える alignment の方向性です。Scale と一貫性の問題を緩和します。

なぜ AI feedback なのか

人手 preference annotation は、

高コスト
Annotator 間の不一致
倫理的負担 (harmful content の閲覧)
Scale しない

という難点があります。AI judge を使うと、

大量・高速・低コスト
明示的な原則 (constitution) に従わせられる
一貫性が保ちやすい
再現性が高い

という利点があります。

Constitutional AI

Anthropic の CAI は、次の 2 段階で alignment します。

SL stage:
- Model に harmful prompt を投げて response を生成
- Constitution の原則を使って自己批判させる
- 修正版で SFT
RL stage:
- 同じ prompt に複数 response を生成
- AI が preference を label
- RLHF / DPO で最適化

Constitution の例

Constitution は短い自然言語の原則集です。例:

「人を傷つける指示は断る」
「医療助言は専門家に確認するよう促す」
「ステレオタイプを避ける」
「ユーザーの自律を尊重する」

CAI の利点は、原則を更新するだけ で挙動を変えられる点です。

RLAIF

RLAIF は、preference data を AI judge で作る方法の総称です。CAI もその一形態と見なせます。

UltraFeedback など、LLM judge で大量 preference data を作る
AI judge の self-preference bias に注意
強い judge と弱い learner で weak-to-strong supervision の研究にもつながる

何が問題になるか

問題	内容
Judge bias	LLM judge の好みが伝播
Constitution の不完全さ	原則の抜けが alignment failure に
Self-reinforcing loop	AI feedback だけで人間視点が欠落
Sycophancy	Judge model がユーザー追従を好む

実用では、human + AI feedback の hybrid が標準的です。

数式で見る constitutional feedback

Constitutional AI / RLAIF では、人間の preference の一部を、原則集合 $\mathcal{C}$ に基づく AI feedback で置き換えます。Prompt $x$ と response pair $(y_a,y_b)$ に対し、critic model が原則 $c\in\mathcal{C}$ を参照して preference を生成します。

\hat{y}^+=\arg\max_{y\in\{y_a,y_b\}} S_\psi(x,y,c)

ここで、 $S_\psi$ は response が constitution にどれくらい合うかを評価する score です。その後は通常の preference learning と同じく、chosen / rejected pair から reward model または policy を更新します。

この式の気持ちは、「人間が毎回判断する代わりに、明文化された原則に沿って AI が批評し、その批評を preference data として使う」というものです。ただし、constitution の書き方や critic model の偏りが、そのまま alignment の方向性に影響します。

主なソース

Constitutional AI: https://arxiv.org/abs/2212.08073
RLAIF: https://arxiv.org/abs/2309.00267
UltraFeedback: https://arxiv.org/abs/2310.01377
Weak-to-Strong Generalization: https://arxiv.org/abs/2312.09390

なぜ AI feedback なのか​

Constitutional AI​

Constitution の例​

RLAIF​

何が問題になるか​

数式で見る constitutional feedback​

関連ページ​

主なソース​