2024 年,OpenAI o1 的发布让"推理"成为 LLM 领域的关键词。2025 年,o3、Claude 3.7 Sonnet、Gemini 2.5 Flash 等模型相继在推理能力上取得突破。进入 2026 年,Reasoning 已经成为评价大模型能力的核心维度之一。
但"推理"究竟是什么?它背后的技术原理是什么?Chain-of-Thought、Tree-of-Thought、Process Reward Model 这些概念之间有什么联系与区别?本文为你系统梳理 LLM Reasoning 的技术全貌。
一、为什么 LLM 需要"推理"?
在 LLM 诞生之初,语言模型的任务是"续写"——给定一段文字,预测下一个最可能出现的 token。这种方式在写邮件、编故事等任务上表现不错,但在数学证明、代码调试、逻辑分析等需要"深思熟虑"的任务上,效果却差强人意。
原因在于:自回归生成模式让模型在看到问题的一瞬间就必须"给出答案",而人类在面对复杂问题时,往往会"想一想再答"。
推理技术的本质,是让 LLM 获得"思考时间"。它解决的是"模型需要在回答之前先组织思路"这一根本矛盾。
二、Chain-of-Thought:推理的起点
2.1 核心思想
Chain-of-Thought(CoT,思维链)由 Google Research 在 2022 年提出。其核心思想非常简单:在提问的同时,要求模型输出推理过程,而不仅仅是最终答案。
例如:
标准 Prompt:
问:小明有 10 个苹果,送给小红 3 个,又买了 5 个,现在有几个?答:
CoT Prompt:
问:小明有 10 个苹果,送给小红 3 个,又买了 5 个,现在有几个?请先列出推理步骤,再给出答案。 答:小明原有 10 个苹果 → 送出 3 个,剩下 10-3=7 个 → 又买了 5 个,7+5=12 个。答案是 12 个。
这种"一步一步思考"的方式,意外地有效。Google 的实验表明,CoT 让 PaLM 540B 在数学题上的准确率从 34% 提升到了 58%。
2.2 CoT 为什么有效?
事后分析表明,CoT 的有效性来自几个因素:
- 计算分配:将推理步骤分散到多个 token 上,相当于增加了模型的"计算预算"
- 隐式知识激活:要求模型显式写出推理过程,激活了预训练中学到的中间逻辑
- 错误局部化:一旦推理出错,可以定位到具体步骤,便于修正
2.3 Zero-shot CoT:无需示例也能推理
2022 年,Kojima 等人发现,只需要在 Prompt 末尾加一句"Let’s think step by step"(让我们一步一步思考),模型就能自动生成推理过程,无需人工提供示例。这被称为 Zero-shot CoT。
这一发现的意义在于:CoT 不再依赖人工标注的推理示例,具备了规模化应用的可能。
2.4 CoT 的局限性
CoT 并不完美。它的主要问题在于:
- 单链路假设:现实中的问题往往有多个分支,线性步骤无法覆盖
- 错误累积:一旦中间某一步出错,后续步骤全部失效
- 无法探索备选路径:模型"一条道走到黑",不回头
这些局限性催生了更复杂的推理范式。
三、Tree-of-Thought:推理的分支
3.1 核心思想
Tree-of-Thought(ToT,思维树)由普林斯顿和 Google DeepMind 于 2023 年联合提出。它的核心思想是:将推理过程建模为树状结构,每个节点代表一个"部分解",通过搜索和投票选出最优路径。
ToT 的典型工作流:
问题:找出所有解数独
┌─── 分支 A:填 [5,3,?, ?,7,?, ?, ?, ?] ─── 验证失败
│
探索 ─┼─── 分支 B:填 [5,3,?, ?,7,?, ?, ?, ?] ─── 验证通过
│ └─── 继续深挖 → 解法 B1
│
└─── 分支 C:填 [5,3,?, ?,7,?, ?, ?, ?] ─── 验证通过
└─── 继续深挖 → 解法 C1 / C2模型不是线性地走一条路,而是在每个节点评估"当前路径是否值得继续",必要时"回溯"尝试其他分支。
3.2 ToT 的实现要素
一个完整的 ToT 系统通常包含四个模块:
- 思想生成器(Thought Generator):给定当前状态,生成若干候选推理步骤
- 状态评估器(State Evaluator):评估每个候选节点的质量(使用 LLM 自身或外部工具)
- 搜索策略:广度优先搜索(BFS)、深度优先搜索(DFS)或束搜索(Beam Search)
- 终止条件:找到满意解或达到搜索深度上限
3.3 ToT vs CoT:何时选择哪种?
| 维度 | CoT | ToT |
|---|---|---|
| 适用场景 | 数学计算、简单推理 | 战略规划、创意写作、搜索问题 |
| 探索深度 | 单路径 | 多路径、可回溯 |
| token 消耗 | 低 | 高(需要多次生成和评估) |
| 实现复杂度 | 低 | 高 |
| 延迟 | 低 | 高(多次 LLM 调用) |
经验法则:简单任务用 CoT,复杂任务用 ToT。如果你不确定,先试 CoT。
四、Graph-of-Thought:推理的网络化
4.1 从树到图
ToT 的树状结构仍然有局限:现实中的推理往往不是严格的树——节点之间可以有横向依赖、同级比较、环状回流。
Graph-of-Thought(GoT,思维图)将推理建模为任意有向图,节点是推理步骤,边是依赖关系或转换关系。2023 年,德国 AI 研究所(DFKI)正式提出了这一框架。
4.2 GoT 的核心操作
GoT 定义了几种基本图操作:
- Generate:生成新节点(与 CoT 的线性生成相同)
- Extract:从多个候选节点中提取最优部分
- Aggregate:合并多个节点(例如综合不同思路的优点)
- Refine:迭代优化某条推理路径
- Backtrack:回溯到之前的状态
这些操作组合起来,可以实现比 ToT 更灵活的推理控制。
4.3 实际应用场景
GoT 特别适合以下场景:
- 论文撰写:不同段落并行起草 → 交叉评审 → 综合修订
- 代码 Debug:多种修复方案并行尝试 → 验证对比 → 选择最优
- 复杂分析:多维信息综合评估 → 交叉验证 → 形成结论
五、Process Reward Model:让模型学会自我评判
5.1 从 Outcome Reward 到 Process Reward
传统的 RLHF(基于人类反馈的强化学习)使用的是 Outcome Reward——只在最终结果上打分。例如:“答案对不对?对 = +1,错 = -1”。
但 Outcome Reward 的问题在于:它无法告诉模型"哪一步出了问题"。
Process Reward Model(PRM,过程奖励模型)的思想是:对推理的每一步都进行打分。 这相当于给模型配备了一个"实时裁判",让它在每一步都能获得反馈。
5.2 PRM 的训练方式
PRM 的训练通常分为两步:
第一步:收集过程标注 让人类标注者对推理的每一步打分(正确/错误/中性),构建"过程监督"数据集。
第二步:用 PRM 引导推理 在推理过程中,PRM 对每个候选步骤打分,选择得分最高的继续。这与 ToT 的"状态评估器"功能类似,但 PRM 是独立训练的专用模型,而非 LLM 自身。
5.3 OpenAI o1 的技术猜想
OpenAI 从未公开 o1 的技术细节,但学术界普遍认为 o1 采用了一种类似 PRM 的机制——在推理阶段(Test-time)使用强化学习引导推理搜索。
这引出了一个重要概念:Test-time Compute Scaling(推理时计算扩展),我们下一节详述。
六、Test-time Compute Scaling:推理时计算革命
6.1 传统范式:训练时计算扩展
过去十年,AI 进步的默认路径是 Scaling Law——用更大的模型、更多的数据、更长的训练时间提升性能。这被称为"训练时计算扩展"(Training-time Compute Scaling)。
GPT-4、Claude、Gemini 都是这条路线的产物。
6.2 新范式:推理时计算扩展
2024 年,OpenAI o1 的发布让业界意识到另一条路:与其在训练时投入更多资源,不如在推理时给模型更多"思考预算"。
Test-time Compute Scaling 的核心思想是:允许模型在回答之前花费更多 token 进行推理(“思考”),以换取更高的答案质量。
这本质上是用推理时的计算换答案质量。o1 在数学竞赛(AIME)、编程(IOI)等任务上的突破性表现,很大程度上来自这种范式转变。
6.3 推理时扩展的两条路径
学术界总结了两种推理时扩展策略:
路径一:密集验证器(Verifier) 训练一个独立的验证模型(Verifier),在推理时对候选答案打分,选择最优。PRM 本质上就是这种思路。
路径二:自适应计算(Adaptive Computation) 让模型自己决定在哪些问题上"多想想"。对于简单问题快速回答,对于复杂问题投入更多推理步骤。2025 年的 Mixtral 8x22B 和 Gemini 2.5 都采用了这种策略。
6.4 瓶颈与挑战
推理时扩展并非银弹:
- 延迟问题:更多的"思考 token"意味着更长的响应时间,不适合实时场景
- 成本问题:更长的输出 = 更高的 token 消耗 = 更高的使用成本
- 回报递减:对于简单问题,增加推理时间几乎没有收益
- 评测困难:如何在没有标准答案的情况下评估"推理质量"?
七、Reasoning Model 的 2026 格局
进入 2026 年,Reasoning Model 已经成为各大模型厂商的必争之地:
| 模型 | 特点 | 典型场景 |
|---|---|---|
| OpenAI o3 | 超长推理链,ARC-AGI 突破 | 科研、复杂推理 |
| Claude 3.7 Sonnet | 长思考模式,代码推理强 | 工程、代码审查 |
| Gemini 2.5 Flash | 高性价比,adaptive compute | 日常任务、快速分析 |
| DeepSeek R2 | 开源推理模型,长链推理 | 研究、部署 |
| Qwen 2.5-o3 | 中文推理,多步规划 | 中文场景 |
值得注意的是,开源推理模型在 2026 年取得了显著进展。DeepSeek R2 和 Qwen 2.5-o3 的发布,让中小企业也能用上推理能力。
八、实战指南:如何选择和使用 Reasoning 策略
8.1 决策树
问题类型
│
├── 简单事实/单一推理 ──→ 直接回答(无需 CoT)
│
├── 复杂推理/多步计算 ──→ CoT (Zero-shot "step by step")
│
├── 开放式探索/多方案 ──→ ToT (多分支搜索)
│
├── 复杂网络依赖 ──→ GoT (图结构推理)
│
└── 高价值任务/需评分 ──→ PRM + ToT (过程奖励引导)8.2 CoT 实践技巧
技巧一:格式控制 使用明确格式(如"步骤1: … 步骤2: … 结论: …")可以让推理过程更清晰,也便于后续解析。
技巧二:Self-consistency 同一问题生成多个推理链,通过投票选出最一致的答案。成本 ×N,但准确率显著提升。
技巧三:锚定效应 先给出错误推理再纠正,比直接给出正确推理更能帮助模型"理解"错误。
8.3 ToT 实践技巧
技巧一:合理设置分支数 分支太多 → token 成本爆炸;分支太少 → 探索不足。经验值:每次生成 3-5 个分支。
技巧二:评估频率 每 3-5 步评估一次,评估太频繁成本高,评估太少容易走偏。
技巧三:剪枝策略 设置"死亡分支"阈值——某路径得分持续低于平均值时及时终止,避免无效探索。
8.4 成本与质量的权衡
以 GPT-4o 为例,1000 个输出 token 的成本约为 0.04 美元。如果一个问题用了 2000 个推理 token,成本约为 0.08 美元。
以下是不同策略的典型 token 消耗(估算):
| 策略 | 输出 Token(典型) | 成本(GPT-4o) |
|---|---|---|
| 直接回答 | 100 | $0.004 |
| Zero-shot CoT | 500 | $0.02 |
| CoT + Self-consistency (×5) | 2500 | $0.10 |
| ToT (3分支 × 5步) | 3000 | $0.12 |
对于高价值任务(代码审查、商业决策),成本换质量是值得的。对于简单任务,用 CoT 足矣。
九、总结与展望
LLM Reasoning 技术经历了从"直接回答"到"链式思考"到"树状探索"再到"图状推理"的演进。每一次范式转变,都对应着对"机器思考"更深层次的理解。
核心结论:
- 推理是 LLM 能力扩展的新维度,训练时 scaling 和推理时 scaling 正在成为提升模型能力的双引擎
- CoT 是基础,大多数场景下"Just think step by step"就足够
- ToT/GoT 是复杂场景的利器,但需要付出额外的复杂度和成本
- PRM 和 Test-time Compute Scaling 是 2026 年最值得关注的方向,它们重新定义了"什么叫强大的模型"
- 推理模型正在民主化,开源推理模型的崛起让中小企业也能用上最先进的推理能力
未来的 LLM,将不再只是"回答问题的工具",而是可以真正"思考问题、理解问题、规划路径"的智能助手。Reasoning,是这条路上最重要的一步。
参考资料
- Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS 2022
- Kojima et al., “Large Language Models are Zero-Shot Reasoners”, NeurIPS 2022
- Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, NeurIPS 2023
- Besta et al., “Graph of Thoughts: Reasoning with Large Language Models”, AAAI 2024
- Lightman et al., “Let’s Verify Step by Step”, ICLR 2024
- Brown et al., “Scaling Instruction-Finetuned Language Models”, Google Research, 2022
