LLM Overview
Large Language Model の全体像、pretraining、post-training、推論、RAG、agent との関係を整理します。
Transformer Architecture
Self-attention、multi-head attention、FFN、residual、layer norm を整理します。
Token to Logits Transformer Walkthrough
トークン化から logits と生成まで、現代的な Transformer / LLM の内部処理を自然な日本語で整理します。
Self-Attention and QKV
Transformer の Self-Attention における Query、Key、Value、causal mask、attention weight の直感を整理します。
LLM Pretraining
Next-token prediction、データキュレーション、curriculum、計算規模を整理します。
Scaling Laws
Compute、data、parameter の scaling law と Chinchilla optimal を整理します。
Tokenization
BPE、SentencePiece、tiktoken、多言語、コード対応のトークナイザを整理します。
Mixture of Experts
Sparse な MoE LLM、router、top-k routing、load balancing、Switch / Mixtral / DeepSeek-V3 を整理します。
Long Context and Position Encoding
RoPE、ALiBi、NTK scaling、YaRN、long context training を整理します。
Supervised Fine-Tuning
Instruction tuning、chat template、SFT データ設計、catastrophic forgetting を整理します。
Parameter-Efficient Fine-Tuning
LoRA、QLoRA、Adapter、Prompt tuning など PEFT 手法を整理します。
In-Context Learning and Prompting
Few-shot、Chain-of-Thought、self-consistency、ToT、prompt engineering を整理します。
Retrieval-Augmented Generation
RAG architecture、embedding、ranking、hybrid search、agentic RAG を整理します。
Reasoning Models
o1、DeepSeek-R1、long CoT、test-time compute scaling、reasoning RL を整理します。
LLM Inference Optimization
KV cache、FlashAttention、PagedAttention、quantization、batching を中心に LLM inference optimization を整理します。
KV Cache
LLM の autoregressive decoding を高速化する KV cache、prefill、decode、TTFT、GQA / MQA、PagedAttention との関係を整理します。
Sampling Strategies
LLM の decoding で使われる temperature、top-k、top-p、min-p、typical sampling を整理します。
Speculative Decoding
小さい draft model と大きい target model を組み合わせて LLM decoding を高速化する speculative decoding を整理します。
Model Merging
複数の fine-tuned checkpoint を重み空間で合成する model merging、Model Soups、Task Arithmetic、TIES、DARE、SLERP を整理します。
LLM Evaluation
MMLU、HumanEval、GPQA、Chatbot Arena、LLM-as-a-Judge、benchmark contamination を整理します。