Parameter-Efficient Fine-Tuning

Parameter-Efficient Fine-Tuning (PEFT) は、全パラメータを更新せず、ごく一部だけ追加・更新 することで、LLM を fine-tune する手法群です。LoRA、QLoRA、Adapter、Prompt tuning などが含まれます。

なぜ必要か

LLM 全パラメータの fine-tuning には、

が必要です。PEFT はこれらを大幅に削減し、消費 GPU 1 枚でも 70B 級モデルを fine-tune できるようにしました。

LoRA (Low-Rank Adaptation) は、各 weight matrix $W$ に対して、低ランク行列の積で更新分を表します。

W' = W + \Delta W = W + B A

ここで、 $A \in \mathbb{R}^{r \times d}$ 、 $B \in \mathbb{R}^{d \times r}$ 、 $r \ll d$ 。

QLoRA は、

という構成です。これにより、消費 GPU 1 枚で 65B モデルの fine-tune が現実的になりました。

LoRA の他にも、

手法	追加するもの
Adapter	各層に小 bottleneck MLP を挿入
Prefix tuning	各層の attention に学習可能な prefix を挿入
Prompt tuning	Embedding に学習可能な soft prompt を加える
IA3	Activation を学習スカラーで rescale

があります。LoRA / QLoRA が現状もっとも普及しています。

LoRA は、元の weight matrix $\mathbf{W}\in\mathbb{R}^{d_{out}\times d_{in}}$ を固定し、更新分だけを低ランク行列の積で表します。

\Delta\mathbf{W}=\mathbf{B}\mathbf{A}, \qquad \mathbf{A}\in\mathbb{R}^{r\times d_{in}},\quad \mathbf{B}\in\mathbb{R}^{d_{out}\times r}

Forward は次のように書けます。

\mathbf{h}=\mathbf{W}\mathbf{x}+\frac{\alpha}{r}\mathbf{B}\mathbf{A}\mathbf{x}

ここで、 $r$ は rank、 $\alpha$ は LoRA scaling です。学習する parameter 数は、full fine-tuning の $d_{out}d_{in}$ に対し、LoRA では $r(d_{in}+d_{out})$ です。

\frac{\#\mathrm{LoRA}}{\#\mathrm{Full}}= rac{r(d_{in}+d_{out})}{d_{in}d_{out}}

この式の気持ちは、「大きな重み全体を動かすのではなく、その更新方向が低ランク部分空間にあると仮定し、小さな adapter だけを学習する」というものです。Rank $r$ を上げるほど表現力は増えますが、memory と overfitting risk も増えます。