Scaling Laws
Scaling Laws は、LLM の モデルサイズ、データ量、計算量 を増やしたときの loss の変化を、経験的なべき乗則として記述するものです。GPT-3、Chinchilla、Llama などの計画的な学習を支える根拠になっています。
基本形
Kaplan ら (2020) と Hoffmann ら (2022, Chinchilla) によると、test loss はおよそ次の形で fit できます。
- : パラメータ数
- : 学習 token 数
- : 経験的定数
Compute optimal: Chinchilla
Kaplan の最初の scaling law は「モデルを大きくすることが最重要」と読まれましたが、Chinchilla 論文は、与えられた計算予算では、N と D を概ね同程度のペースで増やすべきと示しました。
経験則として、
が compute-optimal の目安として広まりました (モデル / レシピで多少前後)。
なぜ重要か
- 計画の指針: どの規模で何 token 学習すべきかを事前に決められる
- 比較の基準: 同じ FLOPs 予算でモデルを比較できる
- 推論コストとの trade-off: 推論時には小さい model の方が安いので、Chinchilla optimal より小さく、より多くの token で学習 する戦略が広く採用された (Llama 系)
推論を考えた "over-training"
Llama 2 / 3 は Chinchilla optimal を超えた量の token で学習されています。これは、
- Training は 1 回で済む
- Inference は何度も行われる
- ユーザー体験のためには小さい model が望ましい
という理由です。Chinchilla optimal は training loss を最小化する 視点ですが、実用では total cost (train + serve) を最小化する視点が重要になります。
Emergent abilities
スケールに応じて急に出現する能力 (arithmetic、in-context learning、CoT 推論など) は、smooth な scaling law とは別の現象として議論されています。最近では、metric の選び方によって "emergent" に見える / 見えないが変わるという議論もあります。
関連ページ
主なソース
- Kaplan et al., scaling laws: https://arxiv.org/abs/2001.08361
- Hoffmann et al., Chinchilla: https://arxiv.org/abs/2203.15556
- Are emergent abilities a mirage?: https://arxiv.org/abs/2304.15004