Skip to main content

Scaling Laws

Scaling Laws は、LLM の モデルサイズ、データ量、計算量 を増やしたときの loss の変化を、経験的なべき乗則として記述するものです。GPT-3、Chinchilla、Llama などの計画的な学習を支える根拠になっています。

基本形

Kaplan ら (2020) と Hoffmann ら (2022, Chinchilla) によると、test loss はおよそ次の形で fit できます。

L(N,D)L+ANα+BDβL(N, D) \approx L_\infty + \frac{A}{N^\alpha} + \frac{B}{D^\beta}
  • NN: パラメータ数
  • DD: 学習 token 数
  • L,A,B,α,βL_\infty, A, B, \alpha, \beta: 経験的定数

Compute optimal: Chinchilla

Kaplan の最初の scaling law は「モデルを大きくすることが最重要」と読まれましたが、Chinchilla 論文は、与えられた計算予算では、N と D を概ね同程度のペースで増やすべきと示しました。

経験則として、

D20×N(tokens)D \approx 20 \times N \quad \text{(tokens)}

が compute-optimal の目安として広まりました (モデル / レシピで多少前後)。

なぜ重要か

  • 計画の指針: どの規模で何 token 学習すべきかを事前に決められる
  • 比較の基準: 同じ FLOPs 予算でモデルを比較できる
  • 推論コストとの trade-off: 推論時には小さい model の方が安いので、Chinchilla optimal より小さく、より多くの token で学習 する戦略が広く採用された (Llama 系)

推論を考えた "over-training"

Llama 2 / 3 は Chinchilla optimal を超えた量の token で学習されています。これは、

  • Training は 1 回で済む
  • Inference は何度も行われる
  • ユーザー体験のためには小さい model が望ましい

という理由です。Chinchilla optimal は training loss を最小化する 視点ですが、実用では total cost (train + serve) を最小化する視点が重要になります。

Emergent abilities

スケールに応じて急に出現する能力 (arithmetic、in-context learning、CoT 推論など) は、smooth な scaling law とは別の現象として議論されています。最近では、metric の選び方によって "emergent" に見える / 見えないが変わるという議論もあります。

関連ページ

主なソース