模型蒸馏:让小模型学会深度思考

o3-mini 在 AIME 数学竞赛上超越了 o1,在 GPQA Diamond 科学推理上达到了 87.7% 的准确率——超越人类专家平均水平。但 o3-mini 的深度搜索版本(extended thinking)每次推理要消耗数万 token 的上下文。 ...

高级 · 2026-03-30 · 21 分钟 · 3750 字 · PengJiyuan
模型蒸馏

思考的深度与广度:LLM Reasoning 技术全面解析

2024 年,OpenAI o1 的发布让"推理"成为 LLM 领域的关键词。2025 年,o3、Claude 3.7 Sonnet、Gemini 2.5 Flash 等模型相继在推理能力上取得突破。进入 2026 年,Reasoning 已经成为评价大模型能力的核心维度之一。 ...

高级 · 2026-03-25 · 27 分钟 · 4786 字 · PengJiyuan
LLM Reasoning 技术全景解析