LLM Overview
Large Language Model (LLM) は、大量の text を使って 次の token を予測する ように pretrain された大規模 transformer です。Chat assistant、coding tool、search、reasoning、AI agent の中核として、近年もっとも影響力のある AI 技術の一つになっています。
自作概念図。LLM の典型的なライフサイクル: pretraining → post-training (SFT + RLHF / DPO) → reasoning RL → 推論時の RAG / agent / chat。
何を「学んでいる」のか
LLM の training objective は驚くほどシンプルです。
つまり、文中の各 token を、それまでの token から予測するだけです。この単純な目的を web 規模のテキスト + 巨大な transformer に適用することで、文法、知識、推論、コード生成、翻訳など多様な能力が emergent に現れることがわかってきました。
三つの大きな段階
| 段階 | 目的 | 代表的手法 |
|---|---|---|
| Pretraining | 言語と世界知識の獲得 | Next-token prediction |
| SFT | 指示追従の獲得 | Instruction tuning |
| Preference alignment | 人間の好みに合わせる | RLHF / DPO |
| Reasoning RL | 長い思考の学習 | GRPO など |
| Deployment | 実応用 | RAG / AI Agents |
詳細ページ
| ページ | 内容 |
|---|---|
| Transformer Architecture | Self-attention、residual、layer norm |
| Self-Attention and QKV | Query、Key、Value、causal mask の直感 |
| Token to Logits Transformer Walkthrough | tokenization から logits、KV cache、long context までの実行経路 |
| LLM Pretraining | Next-token prediction、scaling law |
| Scaling Laws | Chinchilla、compute optimal |
| Tokenization | BPE、SentencePiece、語彙設計 |
| Mixture of Experts | MoE、sparse model、routing |
| Long Context and Position Encoding | RoPE、ALiBi、long context |
| Supervised Fine-Tuning | Instruction tuning、chat template |
| Parameter-Efficient Fine-Tuning | LoRA、QLoRA、adapter |
| In-Context Learning and Prompting | Few-shot、CoT、prompt engineering |
| Retrieval-Augmented Generation | RAG architecture、embedding、ranking |
| Reasoning Models | o1 / R1、long CoT |
| Sampling Strategies | temperature、top-k、top-p、min-p |
| Speculative Decoding | draft model と target model による高速化 |
| Model Merging | Model Soups、Task Arithmetic、TIES、DARE |
| LLM Inference Optimization | KV cache、FlashAttention、PagedAttention、quantization |
| KV Cache | prefill、decode、TTFT、GQA / MQA |
| LLM Evaluation | MMLU、HumanEval、Chatbot Arena |
関連カテゴリ
- RLHF and Alignment — DPO、RLHF、GRPO など
- AI Agents — LLM を脳とする agent system
- Reinforcement Learning — RL の基礎
- Vision-Language Models — 視覚拡張
数式で見る LLM の lifecycle
LLM の基礎は next-token prediction です。Sequence の likelihood は autoregressive factorization で書けます。
Pretraining ではこの negative log likelihood を最小化します。
SFT では、instruction-response pair の response 部分に対して同じ loss を取ります。
Preference alignment では、chosen response と rejected response の差を使います。
この三つの式の気持ちは、「まず言語分布を学び、次に指示形式へ合わせ、最後に人間の好みに合わせる」という lifecycle を表しています。Deployment では、RAG や agent tool use によって の中に外部 context や環境観測が入るため、同じ next-token model でも実際の条件付き分布は大きく変わります。
主なソース
- “Attention Is All You Need”: https://arxiv.org/abs/1706.03762
- GPT-3 paper: https://arxiv.org/abs/2005.14165
- Chinchilla scaling laws: https://arxiv.org/abs/2203.15556
- Llama 3 technical report: https://arxiv.org/abs/2407.21783