Supervised Fine-Tuning

Supervised Fine-Tuning (SFT) は、pretrain された LLM に (instruction, response) ペア を見せて、指示追従や chat 形式の応答を学習させる段階です。RLHF や DPO の前段として、ほぼ必須の工程になっています。

何を学ぶのか

SFT の目的は、

ことです。Pretrain 直後の LLM は web text の続きを書くだけなので、これらの「対話的な振る舞い」を SFT で教え込みます。

SFT の損失は、基本的に pretraining と同じ next-token prediction です。ただし、response 部分の token だけに loss を取るのが標準です。

\mathcal{L} = -\sum_{t \in \text{response}} \log p_\theta(x_t \mid x_{<t})

Chat 形式の SFT では、role と message を明示する chat template を導入します。

<|system|> You are a helpful assistant.
<|user|>   What is the capital of France?
<|assistant|> Paris.

Template は model ごとに異なります (ChatML、Llama、Mistral、Qwen の各形式)。SFT と推論で異なる template を使うと性能が落ちるため、揃える必要があります。

SFT データの集め方は、おおよそ次の三通りです。

方法	内容
人手執筆	高品質だがコスト大
Distillation	強い LLM の出力を蒸留 (Alpaca、ShareGPT 系)
Self-instruct	LLM 自身に instruction を生成させる
Hybrid	人手 + LLM + rule-based filter

近年は、少量だが高品質な SFT (LIMA 仮説) と、大量で多様な SFT の両方向が研究されています。

SFT のリスクは、pretrain で得た能力が損なわれる ことです。例えば、特定 domain の SFT を強くやりすぎると、一般的な知識や coding が劣化します。

対策として、

などがあります。

SFT は「望ましい応答を真似る」段階、RLHF / DPO は「複数の応答のうちどちらが良いかを学ぶ」段階です。多くの aligned LLM では、SFT → preference alignment の順で training されます。