Preference Data
Preference Data は、reward model や DPO 系手法の学習の元になる「人間 (または AI) がどの response を好むか」を表すデータです。データ品質が alignment 性能を大きく左右します。
データの形式
代表的な形式:
| 形式 | 内容 |
|---|---|
| Pairwise | 2 つの response を比較。RLHF / DPO の標準。 |
| Ranking | 3 つ以上の response の順位 |
| Point-wise rating | 1〜7 のスコア |
| Binary feedback | 単一 response への good / bad |
| Edit | 人間が response を書き直す |
| Constitutional | AI が原則に基づいて自己評価 |
どう集めるか
| 方法 | 内容 |
|---|---|
| Human annotators | 高品質、コスト大 |
| Expert reviewers | 専門 task で必須 |
| Crowdsourcing | 大量だがノイズ多い |
| LLM-as-a-Judge | 強い LLM で自動評価 (RLAIF) |
| Implicit feedback | ユーザーの thumbs up / down、再生成、コピー |
代表 dataset
- Anthropic HH-RLHF (helpful / harmless)
- OpenAI WebGPT comparisons
- UltraFeedback (LLM judge)
- HelpSteer / HelpSteer2 (multi-aspect rating)
- Nectar
- PRM800K (math step-level)
品質の問題
Preference data には次の系統的バイアスが入りやすいです。
| バイアス | 内容 |
|---|---|
| Verbosity bias | 長い response を好む |
| Position bias | 先に提示された方を好む (judge LLM 特有) |
| Sycophancy | ユーザーに同意する response を好む |
| Self-preference | LLM judge が自分系列の出力を好む |
| Annotator drift | 時間とともに基準がぶれる |
| Domain bias | 特定 domain の好みが他にも転移 |
Step-level preference
数学や reasoning の場合、最終答だけでなく 推論ステップ単位 の preference が有効です。OpenAI の PRM800K のような step-level reward は、reasoning model や reward model の質を改善します。
数式で見る preference pair
Preference data は、同じ prompt に対する chosen response と rejected response の pair として表せます。
Bradley-Terry model では、人間が を より好む確率を reward の差で表します。
ここで、 は sigmoid、 は reward model です。Reward model の loss は次のように書けます。
この式の気持ちは、「chosen の reward が rejected の reward より高くなるように学習する」というものです。絶対的な点数ではなく差分を学習するため、annotator 間の基準の違いをある程度吸収できます。
関連ページ
主なソース
- Anthropic HH-RLHF: https://arxiv.org/abs/2204.05862
- UltraFeedback: https://arxiv.org/abs/2310.01377
- HelpSteer2: https://arxiv.org/abs/2406.08673
- PRM800K: https://github.com/openai/prm800k