Reasoning Models
Reasoning Models は、長い思考過程 (long chain-of-thought) を内部生成してから最終答を出すように特化した LLM です。OpenAI o1、DeepSeek-R1、Qwen QwQ、Gemini 2.5 Thinking などが代表的で、近年の LLM 研究で最も大きなトピックの一つです。
何が変わったのか
通常の LLM は、prompt を受け取って即座に答えを出します。Reasoning model は、
- 推論前に 数千〜数万 token の思考プロセス を生成
- 自己検証、backtrack、計画修正を含む
- 結果として math、code、science、agent 系 task で大きく性能向上
Test-time compute scaling
Reasoning model の鍵は inference time に計算を投入する ことです。スケーリングの軸が増えました。
- 同じ model でも、思考 token を増やすほど精度が伸びる
- Self-consistency、tree search、program-aided reasoning と組み合わせる
どう training するのか: Reasoning RL
DeepSeek-R1 が公開したレシピが大きな影響を与えました。
- 検証可能な reward (math 正誤、code unit test 通過) を使う
- GRPO など policy gradient で長 CoT を強化
- "Aha moment" 的な自己反省が emergent に現れる
利点と欠点
| 観点 | 利点 | 欠点 |
|---|---|---|
| 性能 | Math / code / 論理で大幅向上 | 雑談・creative では過剰 |
| 制御 | 思考量で精度を調整可能 | 推論コストが線形に増える |
| 透明性 | 思考過程を inspect 可能 | 思考と最終答が乖離することがある |
| Agent | 自己計画 / 反省と相性が良い | レイテンシが伸びる |
Long CoT の落とし穴
- 自分の誤りを正当化し続ける (false reasoning lock-in)
- 答えに到達後も無駄に思考し続ける
- 多言語 mixing
- Prompt injection が思考途中で混入
数式で見る test-time compute scaling
Reasoning model は、最終回答 の前に内部 reasoning trace を生成します。通常の model が を直接出すのに対し、reasoning model は次の周辺化として見られます。
実際には全ての を足し上げられないため、複数の reasoning trace を sample して、最終回答を voting します。
この式の気持ちは、「一回の思考で答えるのではなく、複数の思考経路を試し、最も一貫して出る答えを選ぶ」というものです。 を増やすほど test-time compute は増えますが、math や code のように検証可能な task では精度が伸びやすくなります。
Verifiable reward を使う reasoning RL では、回答が unit test や exact match に通るかを reward にします。
このような reward は人間の好みよりも明確なので、長い reasoning trace の強化学習に使いやすいという利点があります。
関連ページ
- LLM Overview
- In-Context Learning and Prompting
- Sampling Strategies
- GRPO
- Iterative and Online DPO
- RLHF Overview
- AI Agents Overview
主なソース
- OpenAI o1 system card: https://openai.com/index/openai-o1-system-card/
- DeepSeek-R1 paper: https://arxiv.org/abs/2501.12948
- Let's Verify Step by Step (PRM): https://arxiv.org/abs/2305.20050
- Scaling LLM Test-Time Compute: https://arxiv.org/abs/2408.03314