Scaling Laws

Scaling Laws は、LLM の モデルサイズ、データ量、計算量 を増やしたときの loss の変化を、経験的なべき乗則として記述するものです。GPT-3、Chinchilla、Llama などの計画的な学習を支える根拠になっています。

基本形

Kaplan ら (2020) と Hoffmann ら (2022, Chinchilla) によると、test loss はおよそ次の形で fit できます。

L(N, D) \approx L_\infty + \frac{A}{N^\alpha} + \frac{B}{D^\beta}

$N$ : パラメータ数
$D$ : 学習 token 数
$L_\infty, A, B, \alpha, \beta$ : 経験的定数

Compute optimal: Chinchilla

Kaplan の最初の scaling law は「モデルを大きくすることが最重要」と読まれましたが、Chinchilla 論文は、与えられた計算予算では、N と D を概ね同程度のペースで増やすべきと示しました。

経験則として、

D \approx 20 \times N \quad \text{(tokens)}

が compute-optimal の目安として広まりました (モデル / レシピで多少前後)。

なぜ重要か

計画の指針: どの規模で何 token 学習すべきかを事前に決められる
比較の基準: 同じ FLOPs 予算でモデルを比較できる
推論コストとの trade-off: 推論時には小さい model の方が安いので、Chinchilla optimal より小さく、より多くの token で学習 する戦略が広く採用された (Llama 系)

推論を考えた "over-training"

Llama 2 / 3 は Chinchilla optimal を超えた量の token で学習されています。これは、

Training は 1 回で済む
Inference は何度も行われる
ユーザー体験のためには小さい model が望ましい

という理由です。Chinchilla optimal は training loss を最小化する 視点ですが、実用では total cost (train + serve) を最小化する視点が重要になります。

Emergent abilities

スケールに応じて急に出現する能力 (arithmetic、in-context learning、CoT 推論など) は、smooth な scaling law とは別の現象として議論されています。最近では、metric の選び方によって "emergent" に見える / 見えないが変わるという議論もあります。

主なソース

Kaplan et al., scaling laws: https://arxiv.org/abs/2001.08361
Hoffmann et al., Chinchilla: https://arxiv.org/abs/2203.15556
Are emergent abilities a mirage?: https://arxiv.org/abs/2304.15004

基本形​

Compute optimal: Chinchilla​

なぜ重要か​

推論を考えた "over-training"​

Emergent abilities​

関連ページ​

主なソース​

基本形

Compute optimal: Chinchilla

なぜ重要か

推論を考えた "over-training"

Emergent abilities

関連ページ

主なソース