LLM Overview

Large Language Model (LLM) は、大量の text を使って 次の token を予測する ように pretrain された大規模 transformer です。Chat assistant、coding tool、search、reasoning、AI agent の中核として、近年もっとも影響力のある AI 技術の一つになっています。

LLM pipeline map

自作概念図。LLM の典型的なライフサイクル: pretraining → post-training (SFT + RLHF / DPO) → reasoning RL → 推論時の RAG / agent / chat。

何を「学んでいる」のか

LLM の training objective は驚くほどシンプルです。

\mathcal{L} = -\sum_t \log p_\theta(x_t \mid x_{<t})

つまり、文中の各 token $x_t$ を、それまでの token $x_{<t}$ から予測するだけです。この単純な目的を web 規模のテキスト + 巨大な transformer に適用することで、文法、知識、推論、コード生成、翻訳など多様な能力が emergent に現れることがわかってきました。

三つの大きな段階

段階	目的	代表的手法
Pretraining	言語と世界知識の獲得	Next-token prediction
SFT	指示追従の獲得	Instruction tuning
Preference alignment	人間の好みに合わせる	RLHF / DPO
Reasoning RL	長い思考の学習	GRPO など
Deployment	実応用	RAG / AI Agents

詳細ページ

ページ	内容
Transformer Architecture	Self-attention、residual、layer norm
Self-Attention and QKV	Query、Key、Value、causal mask の直感
Token to Logits Transformer Walkthrough	tokenization から logits、KV cache、long context までの実行経路
LLM Pretraining	Next-token prediction、scaling law
Scaling Laws	Chinchilla、compute optimal
Tokenization	BPE、SentencePiece、語彙設計
Mixture of Experts	MoE、sparse model、routing
Long Context and Position Encoding	RoPE、ALiBi、long context
Supervised Fine-Tuning	Instruction tuning、chat template
Parameter-Efficient Fine-Tuning	LoRA、QLoRA、adapter
In-Context Learning and Prompting	Few-shot、CoT、prompt engineering
Retrieval-Augmented Generation	RAG architecture、embedding、ranking
Reasoning Models	o1 / R1、long CoT
Sampling Strategies	temperature、top-k、top-p、min-p
Speculative Decoding	draft model と target model による高速化
Model Merging	Model Soups、Task Arithmetic、TIES、DARE
LLM Inference Optimization	KV cache、FlashAttention、PagedAttention、quantization
KV Cache	prefill、decode、TTFT、GQA / MQA
LLM Evaluation	MMLU、HumanEval、Chatbot Arena

数式で見る LLM の lifecycle

LLM の基礎は next-token prediction です。Sequence $x_{1:T}$ の likelihood は autoregressive factorization で書けます。

p_\theta(x_{1:T})=\prod_{t=1}^{T}p_\theta(x_t\mid x_{<t})

Pretraining ではこの negative log likelihood を最小化します。

\mathcal{L}_{pre}=-\sum_t\log p_\theta(x_t\mid x_{<t})

SFT では、instruction-response pair $(x,y)$ の response 部分に対して同じ loss を取ります。

\mathcal{L}_{SFT}=-\sum_{t\in\mathrm{response}}\log p_\theta(y_t\mid x,y_{<t})

Preference alignment では、chosen response $y^+$ と rejected response $y^-$ の差を使います。

P(y^+\succ y^-\mid x)=\sigma(r(x,y^+)-r(x,y^-))

この三つの式の気持ちは、「まず言語分布を学び、次に指示形式へ合わせ、最後に人間の好みに合わせる」という lifecycle を表しています。Deployment では、RAG や agent tool use によって $x$ の中に外部 context や環境観測が入るため、同じ next-token model でも実際の条件付き分布は大きく変わります。

主なソース

“Attention Is All You Need”: https://arxiv.org/abs/1706.03762
GPT-3 paper: https://arxiv.org/abs/2005.14165
Chinchilla scaling laws: https://arxiv.org/abs/2203.15556
Llama 3 technical report: https://arxiv.org/abs/2407.21783

何を「学んでいる」のか​

三つの大きな段階​

詳細ページ​

関連カテゴリ​

数式で見る LLM の lifecycle​

主なソース​

何を「学んでいる」のか

三つの大きな段階

詳細ページ

関連カテゴリ

数式で見る LLM の lifecycle

主なソース