LLM | 棱镜空间

GLM-5.1 深度解析：开源模型首次突破 1700 步自主执行，8 小时独立完成复杂任务

2026 年 4 月，Z.ai（智谱旗下公司）发布了 GLM-5.1，一个在 Hugging Face 上以 MIT 许可证开源的 7540 亿参数 MoE 大模型。与其说是"又一款强大模型"，不如说它指向了一个被大多数benchmark忽略、却对实际生产影响深远的方向：模型能在一条任务线上跑多久、跑多远，而不是模型在单次回复中有多聪明。 ...

AI Agent 的确定性工程：当 LLM 遇见可靠性要求

LLM 有一个根本矛盾：它的输出是概率性的，同一个输入每次调用都可能得到不同的回答。而生产环境的 AI Agent 对可靠性有刚性要求——同样的操作不能这次成功下次失败，同一个查询不能这次给正确答案下次胡说八道。 ...

Model Merging：如何把多个专家模型合并成一个？

2026 年，训练一个专属 LLM 的成本已经大幅下降。一个 7B 参数的模型，在单卡 A100 上微调几个小时就能完成。于是新的问题来了：针对不同任务微调的模型，能不能合并成一个？ ...

模型蒸馏：让小模型学会深度思考

o3-mini 在 AIME 数学竞赛上超越了 o1，在 GPQA Diamond 科学推理上达到了 87.7% 的准确率——超越人类专家平均水平。但 o3-mini 的深度搜索版本（extended thinking）每次推理要消耗数万 token 的上下文。 ...

LLM 应用可观测性实战：Tracing、评估与生产级监控指南

2026 年，你的 AI 应用可能调用了至少三个不同的 LLM 服务商、五种工具和一个向量数据库。某个用户反馈"AI 回答变差了"——但复现不出来，查日志全是 token 数字，看不出问题在哪。 ...

LLM 推理成本 2026 变革：几分钱时代的应用经济学

2022 年 12 月，GPT-4 的 API 价格是每百万 Token 输入约 30 美元、输出约 60 美元。那时候能"用得起"大模型的公司屈指可数。不到三年后，2026 年 3 月，Google Gemini 3.1 Flash-Lite 上线：每百万 Token 输入仅 0.25 美元，输出 1.5 美元。同等性能的成本下降超过 200 倍。 ...

LLM 推理时间计算Scaling：为什么 o1/o3 之后的 AI 正在改变游戏规则

2025 年之前，提升 AI 模型能力的主流做法很简单：收集更多数据，训练更大的模型，买更多 GPU。这条路走过十几年，Scaling Laws 一次次被验证有效。但 2025 年之后，事情开始起变化。 ...

思考的深度与广度：LLM Reasoning 技术全面解析

2024 年，OpenAI o1 的发布让"推理"成为 LLM 领域的关键词。2025 年，o3、Claude 3.7 Sonnet、Gemini 2.5 Flash 等模型相继在推理能力上取得突破。进入 2026 年，Reasoning 已经成为评价大模型能力的核心维度之一。 ...

LLM Agent 效率优化：记忆、工具与规划的系统性指南

2026 年，AI Agent 已经从概念验证走向规模化落地。OpenClaw、MCP、Agent SDK 等工具让每个人都能创建自己的"数字员工"。但一个尖锐的问题随之浮现：Agent 太烧钱了。 ...