LLM 推理时间计算Scaling：为什么 o1/o3 之后的 AI 正在改变游戏规则

2025 年之前，提升 AI 模型能力的主流做法很简单：收集更多数据，训练更大的模型，买更多 GPU。这条路走过十几年，Scaling Laws 一次次被验证有效。

但 2025 年之后，事情开始起变化。

GPT-5 训练据传花费 5 亿美元，Gemini 3 和 Claude Opus 4.5 的训练成本也到了类似量级。靠堆参数、堆数据的路线，边际收益在递减，财务上的边际成本却在飙升。

与此同时，OpenAI 的 o1 和 o3 让所有人看到了另一条路：推理时投入更多计算，一样能大幅提升模型能力——而且这条路在 2026 年正在被大规模采用。

这就是 Test-Time Compute Scaling（推理时计算Scaling），本文来系统拆解它。

一、为什么现在才热起来

理解这个趋势，先要搞清楚 LLM 训练和推理的本质差异。

训练成本是一次性的：你花 5 亿美元训练一个模型，然后可以以相对低的边际成本服务任意多次推理请求。

推理成本是线性的：每次 API 调用都要花钱，调用次数越多账单越长。

长期以来，训练比推理"值钱"，因为训练的模型权重是 IP、是壁垒，可以无限复用。但这个逻辑在几个变化下被打破：

第一，模型能力本身在趋同。 各家基础模型的质量差距在缩小，单纯靠"我的模型更大"已经很难形成差异化竞争优势。

第二，o1/o3 的示范效应。 OpenAI 用 o3 在 ARC-AGI 基准上刷到 87.5%——远超所有人的预期。这个成绩的关键不是模型参数更大，而是模型在推理时花更多 tokens 去思考。这个"慢思考"范式证明了推理时计算的价值。

第三，API 成本持续下降。 每百万 tokens 的价格在 2025-2026 年间经历了断崖式下跌。当推理成本降到原来的 1/10，推理时多采几次样、让模型多推敲几遍，经济上就完全可行了。

二、核心策略一：多次采样（Multiple Sampling）

最简单的推理时计算策略。

给定一个输入，用模型并行生成 N 个候选答案，然后用某种机制选出最好的那个。

问题 x → 运行模型 1 次 → 答案 A₁
问题 x → 运行模型 1 次 → 答案 A₂
...
问题 x → 运行模型 N 次 → 答案 A_N

→ 选择最优答案（通过投票、评分、或外部判断）

多数投票（Majority Voting）

最简单的选择机制。N 个答案里出现次数最多的就是最终答案。适合有确定客观答案的任务（数学、代码、多选问答）。

MathBench 的实验数据显示，从 1 次采样到 64 次采样，多数投票下数学正确率可以从约 60% 提升到接近 80%——不需要改变模型，只需要改变推理方式。

结果评分（Outcome Reward Scoring）

有正确答案的任务可以用验证器打分。比如数学题用 Python 执行看对不对，代码题用测试用例跑。得分最高的答案入选。

过程奖励模型（Process Reward Model, PRM）

这是当前最热的研究方向，也是 o1/o3 背后的核心技术之一。

传统的结果奖励模型（ORM）只给最终答案打分。PRM 则给推理链中的每一步打分。

问题：求 1+1=?
步骤 1: &#34;首先，我们从 1 开始&#34;      → PRM: 0.9 (合理)
步骤 2: &#34;加 1 等于 2&#34;              → PRM: 0.95 (正确)
步骤 3: &#34;所以答案是 3&#34;             → PRM: 0.1 (错了！)

PRM 的优势在于它能识别"答案对但推理过程有瑕疵"的答案。OR 可能给一个蒙对的答案打高分，但 PRM 会发现中间某步逻辑跳跃。同样，PRM 能找到"差一点就对了"的答案——这对迭代改进至关重要。

训练 PRM 本身是个难题，2025-2026 年陆续有 GenPRM、VERM 等工作尝试规模化训练 PRM，目标是让 PRM 本身像 LLM 一样可泛化。

多次采样是"并行"探索答案空间，迭代自改进则是"序列"地精化答案。

基本循环：

初始答案 → 模型自评（哪里有问题）→ 修改答案 → 再评 → 再改 → ...

这要求模型具备两个能力：生成答案的能力和评价答案的能力。o1/o3 的思维链（Chain-of-Thought）本质上就是在做这件事——模型在内部生成一个推理过程，然后评估这个推理是否可靠。

自我批评（Self-Critique）已经是被广泛验证有效的策略：

简单场景：让模型生成答案，再让同一模型指出答案的弱点，然后生成改进版本
复杂推理：用 PRM 逐步骤评分，找到最薄弱的步骤，重点改进

Google 2026 年发表的 Bayesian Teaching 工作进一步把这个问题形式化——训练模型像 Bayesian 推理者一样处理不确定性，让模型学会在不确定的地方停下来、想办法验证，而不是一路推到底。

值得注意的是，自改进和训练必须协同设计。o1/o3 的突破不只来自推理时的采样策略，更来自训练时就专门为长推理链做了 RL 微调——模型被训练成擅长生成可改进的推理轨迹，而不是简单吐答案。

四、核心策略三：计算量最优分配（Compute-Optimal Inference）

这是 2025 年下半年最激动人心的理论研究。

关键问题：给定固定的推理算力预算，应该怎么分配？

不同问题难度不同。用同样的计算量处理"1+1=?“和"证明黎曼猜想”，明显是浪费。更智能的做法是：简单问题少花算力，难题多花算力。

这个思路最早来自 DeepMind 2024 年的 “Scaling Inference Compute” 论文，提出了"推理计算Scaling定律"：用推理时的 tokens 数量换模型参数。核心发现是：

对于难题，小模型 + 大量推理 tokens，有时能打败大模型 + 少量推理 tokens。

这意味着 Scaling 的方向变了——不再只是 scale up 训练（更大的模型），也可以 scale up 推理（更长的思考）。

更精准的 Scaling 定律反转由 MIT 和 University of Pennsylvania 2026 年初的研究进一步揭示：

在固定的"有效计算量"（模型参数 × 训练 tokens 或推理 tokens）下，训练时计算和推理时计算可以互相替代，但替换比例不是 1:1——推理时计算效率更高，因为它是按需分配的（难题多算，简单题少算）。

实践中的计算量最优分配：

自适应提前退出（Adaptive Early Exit）：简单问题在浅层就给出正确答案，及时退出，不浪费后续层级的计算。

动态采样（Dynamic Sampling）：先生成一个答案，根据置信度估计决定是否继续采样。如果模型对自己的答案有信心，一次就够；如果不确定，生成多个候选再选最优。

混合策略（Hybrid）：并行采样用于低算力区间，迭代改进用于高算力区间。Google 的研究表明，两者的交叉点取决于任务难度和模型质量。

五、为什么推理时Scaling有独特的经济学意义

推理时计算和训练时计算有一个根本不同的特点：边际成本递增。

训练是一次性大额投入，训完可以用很久，训出来的能力对所有用户都有价值。推理是每次调用都要付钱，1 亿次调用的成本是 1000 万次调用的 10 倍。

这对商业模式有深刻影响：

好处：按需付费，不需要提前赌模型能力。可以用小模型 + 多步推理来模拟大模型的效果，降低使用门槛。

挑战：如果某个应用每天处理 1 亿次请求，每次请求用 64 次采样，成本会非常高。企业级 AI 部署必须仔细衡量：花多少推理成本是值得的？

当前解法：缓存机制（对语义相似的查询复用推理结果）、Speculative Decoding（用小模型猜测、大模型验证）、KV Cache 复用等工程优化，都在降低推理时计算的实际成本。

六、o1/o3 做了什么：不完全是"推理时计算"

这里有个常见的误解需要澄清：o1/o3 的成功并不仅仅来自推理时的采样策略。

o1 和 o3 的完整 pipeline 是：

训练时：用强化学习（主要是 GRPO/DAPO 等变体）+ 过程奖励信号，专门微调模型生成可验证的长推理链。模型被训练成擅长展开推理、识别错误、回溯重试。
推理时：模型在内部生成一个很长的思维链（CoT scratchpad），然后输出最终答案。这个思维链对外不可见，但模型确实花了更多 tokens 在"思考"。

所以 o1/o3 的突破是训练和推理协同设计的结果——训练让模型学会生成值得推理的答案，推理时的额外 tokens 给了模型足够的"思考空间"来执行这些推理。

这也解释了为什么直接给普通 GPT-4 加长 CoT 提示词，效果远不如 o1——普通模型没有在训练中被专门调教过生成长推理链，它的长 CoT 往往是在一本正经地胡说八道，而不是真正的逐步推理验证。

七、实际落地：你应该关心什么

对于应用开发者和 AI 工程师，Test-Time Compute Scaling 带来几个直接的启示：

1. 选型时不只看基准分数

两个模型在一次采样下可能差不多，但多次采样后可能差距很大。o3 在 ARC-AGI 上领先其他模型几十个百分点，很大程度上靠的是推理时计算。评估模型能力应该包括"有限推理预算"和"充足推理预算"两种设置。

2. 简单任务不需要浪费推理计算

客服对话、简单问答、文案生成——这类任务花哨的推理策略没什么帮助，反而增加延迟和成本。路由机制（把难题路由到强推理模型，简单题用轻量模型）正在成为标配。

3. 过程奖励模型是下一个基础设施赛道

如果 PRM 足够可靠，它可以被用在任何需要复杂推理的场景：代码生成、数学证明、科学研究。训练和部署 PRM 本身就是一个独立的方向，现在还是蓝海。

4. 2026 年的 LLM 竞争，不只是"模型有多大"，还有"推理时有多聪明"

Anthropic 的 Claude、Google 的 Gemini FlashThinking、DeepSeek 的 R2……各家都在推理时计算上投入大量研发。基础设施（推理优化编译器、计算量调度器、自适应路由）将成为新的竞争焦点。

八、总结

Test-Time Compute Scaling 代表了 LLM 能力提升的一个新维度：不再只是 scale up 训练，也可以 scale up 推理。

三条主要路径：

多次采样 + 投票/评分：并行探索答案空间，简单有效
迭代自改进：序列精化答案，需要模型具备批评能力
计算量最优分配：自适应难题多算、简单题少算，最经济的Scaling

这不只是学术研究方向——它已经进入了生产系统。o1/o3 只是开始，2026 年我们会看到更多在推理时计算上的工程创新。

训练时的 Scaling Laws 奠定了这波 AI 革命的基础。推理时的 Scaling Laws，可能才是下一阶段的主战场。

一、为什么现在才热起来#

二、核心策略一：多次采样（Multiple Sampling）#

多数投票（Majority Voting）#

结果评分（Outcome Reward Scoring）#

过程奖励模型（Process Reward Model, PRM）#

三、核心策略二：迭代自改进（Self-Refinement）#

四、核心策略三：计算量最优分配（Compute-Optimal Inference）#

五、为什么推理时Scaling有独特的经济学意义#

六、o1/o3 做了什么：不完全是"推理时计算"#

七、实际落地：你应该关心什么#

八、总结#