o3-mini 在 AIME 数学竞赛上超越了 o1,在 GPQA Diamond 科学推理上达到了 87.7% 的准确率——超越人类专家平均水平。但 o3-mini 的深度搜索版本(extended thinking)每次推理要消耗数万 token 的上下文。
这对云端部署是可以接受的。但如果你的场景是:本地运行的 AI 助手、边缘设备上的智能应用、或者需要毫秒级响应的在线服务呢?
模型蒸馏(Model Distillation)正在成为解决这一矛盾的核心技术。它的目标很明确:把大模型(Teacher)学到的能力——尤其是推理能力——压缩进一个小模型(Student),在保持核心能力的同时大幅降低成本。
本文系统梳理 2025-2026 年 Reasoning Model 蒸馏的技术原理、主流方法与实战指南。
一、为什么蒸馏是 2026 年的关键战场
1.1 推理模型的「不可能三角」
当前推理模型面临一个经典的三难困境:
- 能力强:o1/o3 在数学、代码、科学推理上达到人类专家水平
- 成本低:小模型(7B~14B 参数)推理成本低,适合大规模部署
- 速度快:毫秒级响应,用户体验流畅
没有任何一个模型能同时满足这三个条件。蒸馏就是在能力和其他两个条件之间寻找最优折中。
1.2 蒸馏的商业逻辑
从商业视角看,蒸馏有清晰的动机:
- OpenAI:o1 的 API 价格是 GPT-4o 的 6 倍,蒸馏后的 7B 模型可以在能力相近的情况下将成本降低 10 倍以上
- 企业用户:在法律文档审查、医疗辅助诊断等垂直场景,不需要通用推理,但需要稳定可靠的推理能力
- 硬件厂商:在手机、汽车座舱等端侧场景,小模型 + 高效推理是唯一可行路径
2026 年,Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 2.0 Flash Thinking、以及 OpenAI 的 o 系列都在积极向合作伙伴开放蒸馏授权。
二、蒸馏的基本原理
2.1 什么是模型蒸馏
模型蒸馏的核心思想来自 Hinton 等人 2015 年的论文《Distilling the Knowledge in a Neural Network》。基本原理是:
小模型不仅从「正确答案」学习,还从「大模型的「软预测」学习。
传统训练只告诉小模型"正确答案是什么",而蒸馏还告诉它"大模型认为每个答案的可能性是多少"。后者包含了更多「知识」——比如大模型认为 B 答案是 23% 正确、C 答案是 71% 正确,这种概率分布本身就编码了丰富的语义关系。
2.2 知识的三种形态
大模型中的知识以三种形态存在,蒸馏的目标是尽可能多地迁移它们:
1. 答案知识(Answer Knowledge) 直接来自「问题-答案」配对数据,这是最基础的监督信号。
2. 推理知识(Reasoning Knowledge) 大模型在给出答案之前经过的思考步骤。这是 o1/o3 时代最重要的知识形态,也是最难蒸馏的部分。
3. 行为知识(Behavioral Knowledge) 大模型面对难题时的「放弃策略」「回溯策略」「重新审视策略」——这些行为模式决定了复杂任务的处理方式。
三、推理模型蒸馏的技术路径
3.1 路径一:思维链蒸馏(CoT Distillation)
最直观的蒸馏方法。把大模型的「思考过程」当作训练数据,小模型学习在给定问题时也输出类似的思维链。
训练方式:用大模型批量生成 (question, reasoning_chain, answer) 三元组,然后用这些数据对大模型做 SFT(监督微调)。
代表工作:OpenAI 的 GPT-4o-mini 很大程度上借鉴了 o1 的推理数据;Anthropic 用 Claude 3.5 Sonnet 的推理过程训练 Claude 3.5 Haiku。
局限性:小模型往往缺乏足够的「容量」来存储完整的推理过程。具体表现是:同一个推理链条中,中间某几步会「跳步」——因为小模型的上下文窗口和注意力机制无法像大模型那样维持超长的依赖链。
3.2 路径二:过程奖励蒸馏(PRM Distillation)
Process Reward Model 蒸馏是 2026 年最主流的方法之一。它的核心思路是:不直接蒸馏思维链,而是蒸馏「判断推理步骤好坏」的能力。
训练方式:
- 用大模型 + 强化学习(如 GRPO)训练一个 PRM(Process Reward Model)
- 用 PRM 指导小模型生成推理步骤:在每一步让小模型探索多个候选,然后选择 PRM 评分最高的路径
代表工作:DeepMind 的 AlphaGeometry 2 用了类似思路:训练一个步骤级评分模型,然后用它引导小模型生成几何证明。Qwen 团队的 QWQ-32B 也采用了类似的 PRM 引导策略。
优势:PRM 蒸馏比纯 CoT 蒸馏更高效——小模型不需要死记硬背每一步推理,而是学会「判断」推理质量,形成类似「直觉」的东西。
3.3 路径三:多教师蒸馏(Multi-Teacher Distillation)
不同大模型在不同领域有各自的优势。多教师蒸馏用加权融合的方式,同时从多个 Teacher 学习。
典型配置:
┌─────────────────────────────────┐
│ Multi-Teacher Fusion │
│ │
│ GPT-o1 ──┐ │
│ ├──→ Student Model │
│ Claude ───┤ (7B/14B) │
│ ├──→ 能力继承 │
│ Gemini ───┘ │
│ (不同权重) │
└─────────────────────────────────┘权重分配策略:
- 基于任务类型:数学任务给 o1 更高权重,创意写作给 Claude 更高权重
- 基于一致性:多教师回答一致时提高置信度,不一致时降低权重
代表工作:Salesforce 的 X-Gen-MM 采用了双教师蒸馏,在视觉-语言任务上用 GPT-4V + Claude 分别做教师;Llama-Mega(Meta,非官方)尝试融合 7 个不同模型的知识。
3.4 路径四:推理链压缩(Reasoning Compression)
这是 2026 年的新方向。o1/o3 的深度思考链可能长达数万个 token,直接蒸馏会导致训练成本极高且小模型难以复现。
核心思路:训练一个「压缩器」模型,将长推理链压缩为短推理链,同时保留核心推理逻辑。
原始推理链(o3,3271 tokens):
"首先,我需要理解这道题在问什么...观察这个等式的结构...
这看起来像是一个递归关系... 让我尝试用数学归纳法...
第一步,验证基本情况... 第二步,假设 n=k 时成立...
计算 n=k+1 的情况... 通过代数变换... 最终得到..."
蒸馏后推理链(学生模型,287 tokens):
"等式两边同时对 x 求导... 使用链式法则...
由边界条件 f(0)=1 可得常数 C=1...
代入验证 n=1 情况成立... 归纳假设验证完毕 ✓"压缩方法:DeepMind 的 Gemini 2.5 Flash Thinking 原生支持短推理链生成(平均 ~500 tokens),通过控制 thinking_budget 参数可以在输出质量和 token 消耗之间调节。这本身就是一种推理链压缩。
四、蒸馏实战:构建你自己的「小思维模型」
4.1 数据准备
蒸馏的第一步是准备好「教师数据」。典型的数据 pipeline:
# Step 1: 用大模型批量生成推理数据
responses = []
for question in questions:
# o1/o3 使用 extended thinking
response = openai.ChatCompletion.create(
model="o3-mini",
messages=[{"role": "user", "content": question}],
reasoning={"effort": "high", "summary": "concise"}
)
responses.append({
"question": question,
"thought_process": response.choices[0].message.reasoning, # 思考链
"answer": response.choices[0].message.content, # 最终答案
"tokens_used": response.usage.total_tokens
})
# Step 2: 数据清洗,剔除错误推理链
cleaned = [r for r in responses if validate_answer(r)]
# Step 3: 格式化训练数据
train_data = [
{"prompt": r["question"], "理想输出": r["thought_process"] + "\n\n" + r["answer"]}
for r in cleaned
]4.2 训练配置
蒸馏小模型的核心参数配置(以 Llama 8B 为例):
# 蒸馏训练配置(基于 Axototrain/LLaMA-Factory)
model:
name: "meta-llama/Llama-3.1-8B-Instruct"
training:
method: "lora_distill" # LoRA + 蒸馏联合训练
temperature: 0.7 # 教师模型采样温度
alpha: 0.5 # 硬标签与软标签权重比例
max_seq_length: 4096 # 截断超长推理链
learning_rate: 1e-4 # 蒸馏用较高学习率
num_train_epochs: 3
per_device_batch_size: 4
gradient_accumulation_steps: 8
distillation:
kd_loss_type: "cosine" # 用 cosine loss 匹配教师分布
distill_whitening: true # 减少分布差异
temperature: 2.0 # 高温放大差异4.3 评估蒸馏效果
蒸馏后如何评估「继承」了多少能力?业界常用以下指标:
| 评估维度 | 代表基准 | 说明 |
|---|---|---|
| 答案准确率 | MATH, GSM8K, AIME | 与教师模型对比最终答案正确率 |
| 推理链质量 | PRM800K, ProcessBench | 评估每个推理步骤的正确性 |
| 分布一致性 | KL Divergence(Student|Teacher) | 学生与教师输出分布的 KL 散度 |
| 推理效率 | Tokens/Response, Latency | 延迟和 token 消耗必须显著低于教师 |
五、蒸馏的局限与应对
5.1 容量瓶颈:7B 模型装不下 70B 的思考
这是蒸馏最根本的局限。OpenAI 的研究显示:当试图将 o1 的推理能力蒸馏进小于 3B 的模型时,推理链的「跳步」问题急剧恶化——模型会在关键步骤之间出现逻辑跳跃,最终答案正确率大幅下降。
缓解策略:不要蒸馏完整的思维链,而是蒸馏「决策边界」——让小模型学会在什么情况下应该深度思考,在什么情况下可以快速回答。
5.2 推理链长度失控
小模型生成的推理链往往比教师更长(因为它没有教师那么「确信」,需要更多步骤来「凑字数」),反而增加了 token 消耗。
缓解策略:在训练时加入推理链长度惩罚;在推理时设置 max_thinking_tokens 限制。
5.3 领域迁移失败
蒸馏数据通常来自通用领域(如 OpenAI 的内部测试集),迁移到特定垂直领域(如法律、医疗)时,效果可能显著下降。
缓解策略:使用垂直领域数据做二次蒸馏(domain-adaptive distillation)。
六、工具与框架推荐
| 工具 | 适用场景 | 特点 |
|---|---|---|
| LLaMA-Factory | 通用蒸馏训练 | 支持多模型、一键启动、实验追踪 |
| Axototrain | 企业级流水线 | 支持 Multi-Teacher、PRM 引导、分布式训练 |
| distillm | 轻量级实验 | 专注推理模型蒸馏,配置简单 |
| vLLM + tensorrt_llm | 推理部署 | 高效推理引擎,配合蒸馏后模型使用 |
| Weights & Biases | 训练监控 | 蒸馏过程可视化,对比 Student vs Teacher |
七、总结
模型蒸馏不是要把小模型变成大模型的「复制品」,而是让它继承大模型在特定任务上最本质的能力。对于推理任务,这通常意味着:
- 不是记住每一步推理,而是学会判断推理的质量(PRM 蒸馏的核心思路)
- 不是复制超长的思维链,而是压缩为关键决策序列(推理链压缩的方向)
- 蒸馏 + 高温采样 > 直接复制,因为软标签包含更多结构化信息
2026 年的趋势是:推理能力正在从「少数大模型的特权」变为「所有规模模型都能具备的基础能力」。如果你在构建 AI 应用,蒸馏技术是实现「高质量 + 低成本 + 本地部署」三角最优解的关键杠杆。
下一步建议:如果你想亲自动手实验,可以从 LLaMA-Factory 入手,用 o1 生成的推理数据对 Llama-3.2-3B 做一次完整的蒸馏流程,亲身体验「小模型也能深度思考」的过程。
