思考的深度与广度：LLM Reasoning 技术全面解析

2024 年，OpenAI o1 的发布让"推理"成为 LLM 领域的关键词。2025 年，o3、Claude 3.7 Sonnet、Gemini 2.5 Flash 等模型相继在推理能力上取得突破。进入 2026 年，Reasoning 已经成为评价大模型能力的核心维度之一。

但"推理"究竟是什么？它背后的技术原理是什么？Chain-of-Thought、Tree-of-Thought、Process Reward Model 这些概念之间有什么联系与区别？本文为你系统梳理 LLM Reasoning 的技术全貌。

一、为什么 LLM 需要"推理"？

在 LLM 诞生之初，语言模型的任务是"续写"——给定一段文字，预测下一个最可能出现的 token。这种方式在写邮件、编故事等任务上表现不错，但在数学证明、代码调试、逻辑分析等需要"深思熟虑"的任务上，效果却差强人意。

原因在于：自回归生成模式让模型在看到问题的一瞬间就必须"给出答案"，而人类在面对复杂问题时，往往会"想一想再答"。

推理技术的本质，是让 LLM 获得"思考时间"。它解决的是"模型需要在回答之前先组织思路"这一根本矛盾。

二、Chain-of-Thought：推理的起点

2.1 核心思想

Chain-of-Thought（CoT，思维链）由 Google Research 在 2022 年提出。其核心思想非常简单：在提问的同时，要求模型输出推理过程，而不仅仅是最终答案。

例如：

标准 Prompt：

问：小明有 10 个苹果，送给小红 3 个，又买了 5 个，现在有几个？答：

CoT Prompt：

问：小明有 10 个苹果，送给小红 3 个，又买了 5 个，现在有几个？请先列出推理步骤，再给出答案。答：小明原有 10 个苹果 → 送出 3 个，剩下 10-3=7 个 → 又买了 5 个，7+5=12 个。答案是 12 个。

这种"一步一步思考"的方式，意外地有效。Google 的实验表明，CoT 让 PaLM 540B 在数学题上的准确率从 34% 提升到了 58%。

2.2 CoT 为什么有效？

事后分析表明，CoT 的有效性来自几个因素：

计算分配：将推理步骤分散到多个 token 上，相当于增加了模型的"计算预算"
隐式知识激活：要求模型显式写出推理过程，激活了预训练中学到的中间逻辑
错误局部化：一旦推理出错，可以定位到具体步骤，便于修正

2.3 Zero-shot CoT：无需示例也能推理

2022 年，Kojima 等人发现，只需要在 Prompt 末尾加一句"Let’s think step by step"（让我们一步一步思考），模型就能自动生成推理过程，无需人工提供示例。这被称为 Zero-shot CoT。

这一发现的意义在于：CoT 不再依赖人工标注的推理示例，具备了规模化应用的可能。

2.4 CoT 的局限性

CoT 并不完美。它的主要问题在于：

单链路假设：现实中的问题往往有多个分支，线性步骤无法覆盖
错误累积：一旦中间某一步出错，后续步骤全部失效
无法探索备选路径：模型"一条道走到黑"，不回头

这些局限性催生了更复杂的推理范式。

三、Tree-of-Thought：推理的分支

3.1 核心思想

Tree-of-Thought（ToT，思维树）由普林斯顿和 Google DeepMind 于 2023 年联合提出。它的核心思想是：将推理过程建模为树状结构，每个节点代表一个"部分解"，通过搜索和投票选出最优路径。

ToT 的典型工作流：

问题：找出所有解数独
     ┌─── 分支 A：填 [5,3,?, ?,7,?, ?, ?, ?] ─── 验证失败
     │
探索 ─┼─── 分支 B：填 [5,3,?, ?,7,?, ?, ?, ?] ─── 验证通过
     │           └─── 继续深挖 → 解法 B1
     │
     └─── 分支 C：填 [5,3,?, ?,7,?, ?, ?, ?] ─── 验证通过
                 └─── 继续深挖 → 解法 C1 / C2

模型不是线性地走一条路，而是在每个节点评估"当前路径是否值得继续"，必要时"回溯"尝试其他分支。

3.2 ToT 的实现要素

一个完整的 ToT 系统通常包含四个模块：

思想生成器（Thought Generator）：给定当前状态，生成若干候选推理步骤
状态评估器（State Evaluator）：评估每个候选节点的质量（使用 LLM 自身或外部工具）
搜索策略：广度优先搜索（BFS）、深度优先搜索（DFS）或束搜索（Beam Search）
终止条件：找到满意解或达到搜索深度上限

3.3 ToT vs CoT：何时选择哪种？

维度	CoT	ToT
适用场景	数学计算、简单推理	战略规划、创意写作、搜索问题
探索深度	单路径	多路径、可回溯
token 消耗	低	高（需要多次生成和评估）
实现复杂度	低	高
延迟	低	高（多次 LLM 调用）

经验法则：简单任务用 CoT，复杂任务用 ToT。如果你不确定，先试 CoT。

四、Graph-of-Thought：推理的网络化

4.1 从树到图

ToT 的树状结构仍然有局限：现实中的推理往往不是严格的树——节点之间可以有横向依赖、同级比较、环状回流。

Graph-of-Thought（GoT，思维图）将推理建模为任意有向图，节点是推理步骤，边是依赖关系或转换关系。2023 年，德国 AI 研究所（DFKI）正式提出了这一框架。

4.2 GoT 的核心操作

GoT 定义了几种基本图操作：

Generate：生成新节点（与 CoT 的线性生成相同）
Extract：从多个候选节点中提取最优部分
Aggregate：合并多个节点（例如综合不同思路的优点）
Refine：迭代优化某条推理路径
Backtrack：回溯到之前的状态

这些操作组合起来，可以实现比 ToT 更灵活的推理控制。

4.3 实际应用场景

GoT 特别适合以下场景：

论文撰写：不同段落并行起草 → 交叉评审 → 综合修订
代码 Debug：多种修复方案并行尝试 → 验证对比 → 选择最优
复杂分析：多维信息综合评估 → 交叉验证 → 形成结论

五、Process Reward Model：让模型学会自我评判

5.1 从 Outcome Reward 到 Process Reward

传统的 RLHF（基于人类反馈的强化学习）使用的是 Outcome Reward——只在最终结果上打分。例如：“答案对不对？对 = +1，错 = -1”。

但 Outcome Reward 的问题在于：它无法告诉模型"哪一步出了问题"。

Process Reward Model（PRM，过程奖励模型）的思想是：对推理的每一步都进行打分。 这相当于给模型配备了一个"实时裁判"，让它在每一步都能获得反馈。

5.2 PRM 的训练方式

PRM 的训练通常分为两步：

第一步：收集过程标注 让人类标注者对推理的每一步打分（正确/错误/中性），构建"过程监督"数据集。

第二步：用 PRM 引导推理 在推理过程中，PRM 对每个候选步骤打分，选择得分最高的继续。这与 ToT 的"状态评估器"功能类似，但 PRM 是独立训练的专用模型，而非 LLM 自身。

5.3 OpenAI o1 的技术猜想

OpenAI 从未公开 o1 的技术细节，但学术界普遍认为 o1 采用了一种类似 PRM 的机制——在推理阶段（Test-time）使用强化学习引导推理搜索。

这引出了一个重要概念：Test-time Compute Scaling（推理时计算扩展），我们下一节详述。

六、Test-time Compute Scaling：推理时计算革命

6.1 传统范式：训练时计算扩展

过去十年，AI 进步的默认路径是 Scaling Law——用更大的模型、更多的数据、更长的训练时间提升性能。这被称为"训练时计算扩展"（Training-time Compute Scaling）。

GPT-4、Claude、Gemini 都是这条路线的产物。

6.2 新范式：推理时计算扩展

2024 年，OpenAI o1 的发布让业界意识到另一条路：与其在训练时投入更多资源，不如在推理时给模型更多"思考预算"。

Test-time Compute Scaling 的核心思想是：允许模型在回答之前花费更多 token 进行推理（“思考”），以换取更高的答案质量。

这本质上是用推理时的计算换答案质量。o1 在数学竞赛（AIME）、编程（IOI）等任务上的突破性表现，很大程度上来自这种范式转变。

6.3 推理时扩展的两条路径

学术界总结了两种推理时扩展策略：

路径一：密集验证器（Verifier） 训练一个独立的验证模型（Verifier），在推理时对候选答案打分，选择最优。PRM 本质上就是这种思路。

路径二：自适应计算（Adaptive Computation） 让模型自己决定在哪些问题上"多想想"。对于简单问题快速回答，对于复杂问题投入更多推理步骤。2025 年的 Mixtral 8x22B 和 Gemini 2.5 都采用了这种策略。

6.4 瓶颈与挑战

推理时扩展并非银弹：

延迟问题：更多的"思考 token"意味着更长的响应时间，不适合实时场景
成本问题：更长的输出 = 更高的 token 消耗 = 更高的使用成本
回报递减：对于简单问题，增加推理时间几乎没有收益
评测困难：如何在没有标准答案的情况下评估"推理质量"？

七、Reasoning Model 的 2026 格局

进入 2026 年，Reasoning Model 已经成为各大模型厂商的必争之地：

模型	特点	典型场景
OpenAI o3	超长推理链，ARC-AGI 突破	科研、复杂推理
Claude 3.7 Sonnet	长思考模式，代码推理强	工程、代码审查
Gemini 2.5 Flash	高性价比，adaptive compute	日常任务、快速分析
DeepSeek R2	开源推理模型，长链推理	研究、部署
Qwen 2.5-o3	中文推理，多步规划	中文场景

值得注意的是，开源推理模型在 2026 年取得了显著进展。DeepSeek R2 和 Qwen 2.5-o3 的发布，让中小企业也能用上推理能力。

八、实战指南：如何选择和使用 Reasoning 策略

8.1 决策树

问题类型
    │
    ├── 简单事实/单一推理 ──→ 直接回答（无需 CoT）
    │
    ├── 复杂推理/多步计算 ──→ CoT (Zero-shot &#34;step by step&#34;)
    │
    ├── 开放式探索/多方案 ──→ ToT (多分支搜索)
    │
    ├── 复杂网络依赖 ──→ GoT (图结构推理)
    │
    └── 高价值任务/需评分 ──→ PRM + ToT (过程奖励引导)

8.2 CoT 实践技巧

技巧一：格式控制 使用明确格式（如"步骤1: … 步骤2: … 结论: …"）可以让推理过程更清晰，也便于后续解析。

技巧二：Self-consistency 同一问题生成多个推理链，通过投票选出最一致的答案。成本 ×N，但准确率显著提升。

技巧三：锚定效应 先给出错误推理再纠正，比直接给出正确推理更能帮助模型"理解"错误。

8.3 ToT 实践技巧

技巧一：合理设置分支数 分支太多 → token 成本爆炸；分支太少 → 探索不足。经验值：每次生成 3-5 个分支。

技巧二：评估频率 每 3-5 步评估一次，评估太频繁成本高，评估太少容易走偏。

技巧三：剪枝策略 设置"死亡分支"阈值——某路径得分持续低于平均值时及时终止，避免无效探索。

8.4 成本与质量的权衡

以 GPT-4o 为例，1000 个输出 token 的成本约为 0.04 美元。如果一个问题用了 2000 个推理 token，成本约为 0.08 美元。

以下是不同策略的典型 token 消耗（估算）：

策略	输出 Token（典型）	成本（GPT-4o）
直接回答	100	$0.004
Zero-shot CoT	500	$0.02
CoT + Self-consistency (×5)	2500	$0.10
ToT (3分支 × 5步)	3000	$0.12

对于高价值任务（代码审查、商业决策），成本换质量是值得的。对于简单任务，用 CoT 足矣。

九、总结与展望

LLM Reasoning 技术经历了从"直接回答"到"链式思考"到"树状探索"再到"图状推理"的演进。每一次范式转变，都对应着对"机器思考"更深层次的理解。

核心结论：

推理是 LLM 能力扩展的新维度，训练时 scaling 和推理时 scaling 正在成为提升模型能力的双引擎
CoT 是基础，大多数场景下"Just think step by step"就足够
ToT/GoT 是复杂场景的利器，但需要付出额外的复杂度和成本
PRM 和 Test-time Compute Scaling 是 2026 年最值得关注的方向，它们重新定义了"什么叫强大的模型"
推理模型正在民主化，开源推理模型的崛起让中小企业也能用上最先进的推理能力

未来的 LLM，将不再只是"回答问题的工具"，而是可以真正"思考问题、理解问题、规划路径"的智能助手。Reasoning，是这条路上最重要的一步。

参考资料

Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, NeurIPS 2022
Kojima et al., “Large Language Models are Zero-Shot Reasoners”, NeurIPS 2022
Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”, NeurIPS 2023
Besta et al., “Graph of Thoughts: Reasoning with Large Language Models”, AAAI 2024
Lightman et al., “Let’s Verify Step by Step”, ICLR 2024
Brown et al., “Scaling Instruction-Finetuned Language Models”, Google Research, 2022

一、为什么 LLM 需要"推理"？#

二、Chain-of-Thought：推理的起点#

2.1 核心思想#

2.2 CoT 为什么有效？#

2.3 Zero-shot CoT：无需示例也能推理#

2.4 CoT 的局限性#

三、Tree-of-Thought：推理的分支#

3.1 核心思想#

3.2 ToT 的实现要素#

3.3 ToT vs CoT：何时选择哪种？#

四、Graph-of-Thought：推理的网络化#

4.1 从树到图#

4.2 GoT 的核心操作#

4.3 实际应用场景#

五、Process Reward Model：让模型学会自我评判#

5.1 从 Outcome Reward 到 Process Reward#

5.2 PRM 的训练方式#

5.3 OpenAI o1 的技术猜想#

六、Test-time Compute Scaling：推理时计算革命#

6.1 传统范式：训练时计算扩展#

6.2 新范式：推理时计算扩展#

6.3 推理时扩展的两条路径#

6.4 瓶颈与挑战#

七、Reasoning Model 的 2026 格局#

八、实战指南：如何选择和使用 Reasoning 策略#

8.1 决策树#

8.2 CoT 实践技巧#

8.3 ToT 实践技巧#

8.4 成本与质量的权衡#

九、总结与展望#

参考资料#