O1 | 棱镜空间

模型蒸馏：让小模型学会深度思考

o3-mini 在 AIME 数学竞赛上超越了 o1，在 GPQA Diamond 科学推理上达到了 87.7% 的准确率——超越人类专家平均水平。但 o3-mini 的深度搜索版本（extended thinking）每次推理要消耗数万 token 的上下文。 ...

2025 年之前，提升 AI 模型能力的主流做法很简单：收集更多数据，训练更大的模型，买更多 GPU。这条路走过十几年，Scaling Laws 一次次被验证有效。但 2025 年之后，事情开始起变化。 ...