模型蒸馏:让小模型学会深度思考

o3-mini 在 AIME 数学竞赛上超越了 o1,在 GPQA Diamond 科学推理上达到了 87.7% 的准确率——超越人类专家平均水平。但 o3-mini 的深度搜索版本(extended thinking)每次推理要消耗数万 token 的上下文。 ...

高级 · 2026-03-30 · 21 分钟 · 3750 字 · PengJiyuan
模型蒸馏

LLM 推理时间计算Scaling:为什么 o1/o3 之后的 AI 正在改变游戏规则

2025 年之前,提升 AI 模型能力的主流做法很简单:收集更多数据,训练更大的模型,买更多 GPU。这条路走过十几年,Scaling Laws 一次次被验证有效。 但 2025 年之后,事情开始起变化。 ...

高级 · 2026-03-26 · 22 分钟 · 3940 字 · PengJiyuan
Test-Time Compute Scaling