2025 年之前,提升 AI 模型能力的主流做法很简单:收集更多数据,训练更大的模型,买更多 GPU。这条路走过十几年,Scaling Laws 一次次被验证有效。

但 2025 年之后,事情开始起变化。

GPT-5 训练据传花费 5 亿美元,Gemini 3 和 Claude Opus 4.5 的训练成本也到了类似量级。靠堆参数、堆数据的路线,边际收益在递减,财务上的边际成本却在飙升。

与此同时,OpenAI 的 o1 和 o3 让所有人看到了另一条路:推理时投入更多计算,一样能大幅提升模型能力——而且这条路在 2026 年正在被大规模采用。

这就是 Test-Time Compute Scaling(推理时计算Scaling),本文来系统拆解它。


一、为什么现在才热起来

理解这个趋势,先要搞清楚 LLM 训练和推理的本质差异。

训练成本是一次性的:你花 5 亿美元训练一个模型,然后可以以相对低的边际成本服务任意多次推理请求。

推理成本是线性的:每次 API 调用都要花钱,调用次数越多账单越长。

长期以来,训练比推理"值钱",因为训练的模型权重是 IP、是壁垒,可以无限复用。但这个逻辑在几个变化下被打破:

第一,模型能力本身在趋同。 各家基础模型的质量差距在缩小,单纯靠"我的模型更大"已经很难形成差异化竞争优势。

第二,o1/o3 的示范效应。 OpenAI 用 o3 在 ARC-AGI 基准上刷到 87.5%——远超所有人的预期。这个成绩的关键不是模型参数更大,而是模型在推理时花更多 tokens 去思考。这个"慢思考"范式证明了推理时计算的价值。

第三,API 成本持续下降。 每百万 tokens 的价格在 2025-2026 年间经历了断崖式下跌。当推理成本降到原来的 1/10,推理时多采几次样、让模型多推敲几遍,经济上就完全可行了。


二、核心策略一:多次采样(Multiple Sampling)

最简单的推理时计算策略。

给定一个输入,用模型并行生成 N 个候选答案,然后用某种机制选出最好的那个。

问题 x → 运行模型 1 次 → 答案 A₁
问题 x → 运行模型 1 次 → 答案 A₂
...
问题 x → 运行模型 N 次 → 答案 A_N

→ 选择最优答案(通过投票、评分、或外部判断)

多数投票(Majority Voting)

最简单的选择机制。N 个答案里出现次数最多的就是最终答案。适合有确定客观答案的任务(数学、代码、多选问答)。

MathBench 的实验数据显示,从 1 次采样到 64 次采样,多数投票下数学正确率可以从约 60% 提升到接近 80%——不需要改变模型,只需要改变推理方式。

结果评分(Outcome Reward Scoring)

有正确答案的任务可以用验证器打分。比如数学题用 Python 执行看对不对,代码题用测试用例跑。得分最高的答案入选。

过程奖励模型(Process Reward Model, PRM)

这是当前最热的研究方向,也是 o1/o3 背后的核心技术之一。

传统的结果奖励模型(ORM)只给最终答案打分。PRM 则给推理链中的每一步打分。

问题:求 1+1=?
步骤 1: "首先,我们从 1 开始"      → PRM: 0.9 (合理)
步骤 2: "加 1 等于 2"              → PRM: 0.95 (正确)
步骤 3: "所以答案是 3"             → PRM: 0.1 (错了!)

PRM 的优势在于它能识别"答案对但推理过程有瑕疵"的答案。OR 可能给一个蒙对的答案打高分,但 PRM 会发现中间某步逻辑跳跃。同样,PRM 能找到"差一点就对了"的答案——这对迭代改进至关重要。

训练 PRM 本身是个难题,2025-2026 年陆续有 GenPRM、VERM 等工作尝试规模化训练 PRM,目标是让 PRM 本身像 LLM 一样可泛化。


三、核心策略二:迭代自改进(Self-Refinement)

多次采样是"并行"探索答案空间,迭代自改进则是"序列"地精化答案。

基本循环:

初始答案 → 模型自评(哪里有问题)→ 修改答案 → 再评 → 再改 → ...

这要求模型具备两个能力:生成答案的能力评价答案的能力。o1/o3 的思维链(Chain-of-Thought)本质上就是在做这件事——模型在内部生成一个推理过程,然后评估这个推理是否可靠。

自我批评(Self-Critique)已经是被广泛验证有效的策略:

  • 简单场景:让模型生成答案,再让同一模型指出答案的弱点,然后生成改进版本
  • 复杂推理:用 PRM 逐步骤评分,找到最薄弱的步骤,重点改进

Google 2026 年发表的 Bayesian Teaching 工作进一步把这个问题形式化——训练模型像 Bayesian 推理者一样处理不确定性,让模型学会在不确定的地方停下来、想办法验证,而不是一路推到底。

值得注意的是,自改进和训练必须协同设计。o1/o3 的突破不只来自推理时的采样策略,更来自训练时就专门为长推理链做了 RL 微调——模型被训练成擅长生成可改进的推理轨迹,而不是简单吐答案。


四、核心策略三:计算量最优分配(Compute-Optimal Inference)

这是 2025 年下半年最激动人心的理论研究。

关键问题:给定固定的推理算力预算,应该怎么分配?

不同问题难度不同。用同样的计算量处理"1+1=?“和"证明黎曼猜想”,明显是浪费。更智能的做法是:简单问题少花算力,难题多花算力

这个思路最早来自 DeepMind 2024 年的 “Scaling Inference Compute” 论文,提出了"推理计算Scaling定律":用推理时的 tokens 数量换模型参数。核心发现是:

对于难题,小模型 + 大量推理 tokens,有时能打败大模型 + 少量推理 tokens。

这意味着 Scaling 的方向变了——不再只是 scale up 训练(更大的模型),也可以 scale up 推理(更长的思考)。

更精准的 Scaling 定律反转由 MIT 和 University of Pennsylvania 2026 年初的研究进一步揭示:

在固定的"有效计算量"(模型参数 × 训练 tokens 或 推理 tokens)下,训练时计算推理时计算可以互相替代,但替换比例不是 1:1——推理时计算效率更高,因为它是按需分配的(难题多算,简单题少算)。

实践中的计算量最优分配:

自适应提前退出(Adaptive Early Exit):简单问题在浅层就给出正确答案,及时退出,不浪费后续层级的计算。

动态采样(Dynamic Sampling):先生成一个答案,根据置信度估计决定是否继续采样。如果模型对自己的答案有信心,一次就够;如果不确定,生成多个候选再选最优。

混合策略(Hybrid):并行采样用于低算力区间,迭代改进用于高算力区间。Google 的研究表明,两者的交叉点取决于任务难度和模型质量。


五、为什么推理时Scaling有独特的经济学意义

推理时计算和训练时计算有一个根本不同的特点:边际成本递增

训练是一次性大额投入,训完可以用很久,训出来的能力对所有用户都有价值。推理是每次调用都要付钱,1 亿次调用的成本是 1000 万次调用的 10 倍。

这对商业模式有深刻影响:

好处:按需付费,不需要提前赌模型能力。可以用小模型 + 多步推理来模拟大模型的效果,降低使用门槛。

挑战:如果某个应用每天处理 1 亿次请求,每次请求用 64 次采样,成本会非常高。企业级 AI 部署必须仔细衡量:花多少推理成本是值得的?

当前解法:缓存机制(对语义相似的查询复用推理结果)、Speculative Decoding(用小模型猜测、大模型验证)、KV Cache 复用等工程优化,都在降低推理时计算的实际成本。


六、o1/o3 做了什么:不完全是"推理时计算"

这里有个常见的误解需要澄清:o1/o3 的成功并不仅仅来自推理时的采样策略。

o1 和 o3 的完整 pipeline 是:

  1. 训练时:用强化学习(主要是 GRPO/DAPO 等变体)+ 过程奖励信号,专门微调模型生成可验证的长推理链。模型被训练成擅长展开推理、识别错误、回溯重试。

  2. 推理时:模型在内部生成一个很长的思维链(CoT scratchpad),然后输出最终答案。这个思维链对外不可见,但模型确实花了更多 tokens 在"思考"。

所以 o1/o3 的突破是训练和推理协同设计的结果——训练让模型学会生成值得推理的答案,推理时的额外 tokens 给了模型足够的"思考空间"来执行这些推理。

这也解释了为什么直接给普通 GPT-4 加长 CoT 提示词,效果远不如 o1——普通模型没有在训练中被专门调教过生成长推理链,它的长 CoT 往往是在一本正经地胡说八道,而不是真正的逐步推理验证。


七、实际落地:你应该关心什么

对于应用开发者和 AI 工程师,Test-Time Compute Scaling 带来几个直接的启示:

1. 选型时不只看基准分数

两个模型在一次采样下可能差不多,但多次采样后可能差距很大。o3 在 ARC-AGI 上领先其他模型几十个百分点,很大程度上靠的是推理时计算。评估模型能力应该包括"有限推理预算"和"充足推理预算"两种设置。

2. 简单任务不需要浪费推理计算

客服对话、简单问答、文案生成——这类任务花哨的推理策略没什么帮助,反而增加延迟和成本。路由机制(把难题路由到强推理模型,简单题用轻量模型)正在成为标配。

3. 过程奖励模型是下一个基础设施赛道

如果 PRM 足够可靠,它可以被用在任何需要复杂推理的场景:代码生成、数学证明、科学研究。训练和部署 PRM 本身就是一个独立的方向,现在还是蓝海。

4. 2026 年的 LLM 竞争,不只是"模型有多大",还有"推理时有多聪明"

Anthropic 的 Claude、Google 的 Gemini FlashThinking、DeepSeek 的 R2……各家都在推理时计算上投入大量研发。基础设施(推理优化编译器、计算量调度器、自适应路由)将成为新的竞争焦点。


八、总结

Test-Time Compute Scaling 代表了 LLM 能力提升的一个新维度:不再只是 scale up 训练,也可以 scale up 推理。

三条主要路径:

  • 多次采样 + 投票/评分:并行探索答案空间,简单有效
  • 迭代自改进:序列精化答案,需要模型具备批评能力
  • 计算量最优分配:自适应难题多算、简单题少算,最经济的Scaling

这不只是学术研究方向——它已经进入了生产系统。o1/o3 只是开始,2026 年我们会看到更多在推理时计算上的工程创新。

训练时的 Scaling Laws 奠定了这波 AI 革命的基础。推理时的 Scaling Laws,可能才是下一阶段的主战场。