Preference Data

Preference Data は、reward model や DPO 系手法の学習の元になる「人間 (または AI) がどの response を好むか」を表すデータです。データ品質が alignment 性能を大きく左右します。

データの形式

代表的な形式:

Preference data には次の系統的バイアスが入りやすいです。

数学や reasoning の場合、最終答だけでなく 推論ステップ単位 の preference が有効です。OpenAI の PRM800K のような step-level reward は、reasoning model や reward model の質を改善します。

Preference data は、同じ prompt $x$ に対する chosen response $y^+$ と rejected response $y^-$ の pair として表せます。

(x,y^+,y^-)

Bradley-Terry model では、人間が $y^+$ を $y^-$ より好む確率を reward の差で表します。

P(y^+\succ y^-\mid x)= \sigma\left(r_\phi(x,y^+)-r_\phi(x,y^-)\right)

ここで、 $\sigma$ は sigmoid、 $r_\phi$ は reward model です。Reward model の loss は次のように書けます。

\mathcal{L}_{\mathrm{RM}}=-\log\sigma\left(r_\phi(x,y^+)-r_\phi(x,y^-)\right)

この式の気持ちは、「chosen の reward が rejected の reward より高くなるように学習する」というものです。絶対的な点数ではなく差分を学習するため、annotator 間の基準の違いをある程度吸収できます。