2022 年 12 月,GPT-4 的 API 价格是每百万 Token 输入约 30 美元、输出约 60 美元。那时候能"用得起"大模型的公司屈指可数。
不到三年后,2026 年 3 月,Google Gemini 3.1 Flash-Lite 上线:每百万 Token 输入仅 0.25 美元,输出 1.5 美元。同等性能的成本下降超过 200 倍。
这不是线性递减,而是指数级的成本革命。本文梳理 2026 年 LLM 推理定价格局、工程降本策略,以及这场成本崩塌真正打开的应用空间。
一、定价图谱:几分钱 Token 的时代
1.1 当前主流模型定价(2026 年 3 月)
| 模型 | 输入 $/M Token | 输出 $/M Token | 定位 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $10 | 前沿通用 |
| Claude Opus 4.6 | $5 | $25 | 旗舰推理 |
| Claude Sonnet 4.6 | $3 | $15 | 高性价比旗舰 |
| Gemini 3.1 Pro | $2 | $12 | 多模态旗舰 |
| Gemini 3 Flash | $0.50 | $3 | 高性能快模型 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 成本敏感型 |
| Claude Haiku 4.5 | $1 | $5 | 轻量级 |
| DeepSeek-V3(开源) | ~$0.028 | ~$0.28 | 自托管参考 |
数据来源:各厂商官方定价页,2026 年 3 月。Batch API 和上下文缓存不在上述基准价内。
关键数字:Gemini 3.1 Flash-Lite 的输出成本,比两年前的 GPT-4 便宜 97%。
1.2 成本下降的速度
量化这个趋势:
- 2022 年底:GPT-4 级别能力 ≈ $20–60/M token
- 2024 年中:GPT-4o Mini 将输入打到 $0.60/M
- 2025 年初:DeepSeek-V3 以 $0.28/M 输出打破市场
- 2026 年 3 月:Flash-Lite 输入 $0.25/M,输出 $1.50/M
相当于:每年 10 倍的降幅,持续三年。作为对比,摩尔定律是每 18 个月降一半,即每年约 30% 的降幅。LLM 推理成本的下降速度是摩尔定律的 30 倍以上。
背后驱动因素有三个:
- 算法效率提升:更小的模型达到以前大模型的能力,量化、剪枝、蒸馏技术成熟
- 硬件进步:H100 → H200 → Rubin,GPU 每代推理吞吐量提升 2–3 倍
- 市场竞争:Google、Anthropic、OpenAI、xAI 多方竞争,价格战激烈
二、被成本打开的应用空间
Token 价格的量级变化不只是"更便宜了"——它让一些原本根本不可行的场景变得经济上合理。
2.1 高频 Agent 工作流
一个 AI Agent 完成复杂任务平均消耗 10,000–50,000 Token(输入+输出)。按 GPT-4 时代的成本($30+M),单次任务成本 $0.30–$1.50,规模化后根本无法承受。
按 Gemini 3.1 Flash-Lite 成本:
50,000 Token × $0.00175/T ≈ $0.0875/任务每天处理 100 万次任务,月成本约 $2,600——这在企业级 Agent 产品里是完全可接受的。
2026 年初,Claude Sonnet 4.6 以 $3/$15 的"旗舰性能+中端价格"切入,让 每日千万次级别 的 Agent 调用首次进入可行性区间。
2.2 实时语音对话
实时语音对 Token 延迟和成本同时敏感。传统语音助手每次响应需要:
- ASR(语音→文字):$0.01–0.05/次
- LLM 推理:$0.05–0.20/次
- TTS(文字→语音):$0.01–0.05/次
合计每次交互 $0.07–0.30,按 Gemini Flash-Lite 成本,LLM 部分降到 $0.002/次,整体交互成本压缩到 $0.015 以下。这意味着语音 AI 产品可以支撑免费用户级别的大规模部署。
2.3 个性化 AI 服务
过去训练专属模型成本极高(数万美元)。现在可以通过上下文缓存实现几乎零额外成本的个性化:
- 将用户历史会话、偏好文档缓存在上下文窗口内
- 后续请求只需处理新增 Token,缓存 Token 不重复计费
- Google 的上下文缓存可将重复前缀的成本降低 90%
三、工程降本策略
Token 定价只是表面。真正的工程成本取决于 GPU 利用率、Token 消耗效率和模型选择策略。
3.1 上下文缓存(Context Caching)
这是 2025–2026 年最被低估的降本工具。原理很简单:对于包含大量固定内容的请求(如系统提示词、工具定义、长文档),首次计算 KV 缓存后复用,后续请求只支付新增 Token 的费用。
各厂商缓存定价:
| 厂商 | 模型 | 缓存输入折扣 |
|---|---|---|
| Gemini 系列 | 缓存输入 $0.03/M(vs 基准 $0.30) | |
| Anthropic | Claude 系列 | 缓存输入 $0.30/M(vs 基准 $3.75) |
| xAI | Grok | 缓存输入 $0.05/M |
实际案例:RAG 场景中,每次查询附带的检索上下文可能有 50,000 Token。如果不做缓存,每次查询都要支付 50,000 Token 的输入费用。开启缓存后,只有首次需要支付完整费用,后续查询只需支付用户本次新增的 Query Token。
3.2 智能路由(Model Routing)
不同任务需要不同能力层级。用 Sonnet 处理"今天天气如何"和用 Haiku 处理"请分析这份 200 页财报"都是浪费。
构建路由层的原则:
def route_task(task: str, context: str = "") -> str:
# 简单信息查询 → 最便宜的模型
if is_simple_fact_lookup(task):
return "gemini-flash-lite"
# 需要推理但不复杂 → 中端模型
if needs_reasoning(task) and not needs_deep_analysis(task):
return "claude-haiku"
# 复杂推理 / 代码 / 多步规划 → 旗舰模型
return "claude-opus" # 或按成本选 sonnet-4.6这个路由层做得好,平均成本可下降 60–80%,同时不损失任务质量。
3.3 批处理(Batch Processing)
Google Batch API 提供 50% 折扣,代价是 24 小时内完成。适合离线分析、内容生成等非实时任务。
实际测算:一个每天生成 10 万篇文章摘要的 pipeline,使用 Batch API 比实时调用节省 50% 成本,一年就是数十万美元的差距。
3.4 量化与蒸馏
对于有 AI 基础设施能力的团队:
- INT4 量化:可将 70B 模型的内存占用减少 75%,推理速度提升 2–3 倍
- 知识蒸馏:用大模型输出训练小模型,专门处理高频简单任务
- Speculative Decoding:用小模型猜测、大模型验证,延迟降低 2–3 倍
Llama 4 7B 在 INT4 量化后,MMLU 仍能保持 60+(vs 原始 FP16 的 65+),但推理速度快了 3 倍、显存需求从 14GB 降到 4GB——这意味着一块 MacBook M3 Pro 就能跑量化版 Llama 4 7B。
四、自托管 vs API:何时自建
2026 年,开源模型的性能已经非常接近闭源前沿:
- Llama 4 Maverick:$0.24/$0.97/M Token(via Together.ai),MMLU 72+
- DeepSeek-V3:~$0.028/$0.28/M Token,开源可自托管
- Qwen 3.5(阿里):多模态能力强,开源版本可量化部署
自托管的盈亏平衡点取决于团队规模和使用量:
| 规模 | 建议方案 | 理由 |
|---|---|---|
| < $500/月 API 支出 | 纯 API | 运维成本不划算 |
| $500–5,000/月 | 混合:简单任务 API + 自托管简单模型 | |
| > $5,000/月 | 评测自托管成本,优先高频场景迁移 | |
| 极高吞吐(数亿Token/天) | 完整自托管 + 量化 | GPU 利用率足够高 |
一个快速估算自托管是否合算的公式:
自托管月成本 ≈ (GPU数量 × GPU小时费 × 24 × 30) + 运维人力成本
API月成本 ≈ Token消耗量 × 单位价格
盈亏平衡点:约 50% GPU 利用率H100 每小时约 $2.5–3.5(2026 年价格),一个月约 $1,800–2,500。只要每天 Token 消耗超过 $60(用 Gemini Flash-Lite 约 3400 万输出 Token),自托管就有经济意义。
五、定价趋势预判
5.1 还会继续降吗?
会,但速度会放缓。
- 算法效率的红利还没吃完(当前模型仍然存在大量冗余计算)
- 硬件从 H100 → Rubin → 下一代,推理密度还在提升
- 市场竞争没有减弱迹象
预判:2026 年底,Gemini Flash-Lite 级别的成本可能再降 30–50%,达到输入 $0.1/M Token 量级。
5.2 什么不会降价
推理时计算(Test-Time Compute)不降反升。o1/o3、Claude Opus 4.6 等推理模型在回答前会运行超长思维链,输出的"思考 Token"越来越多、成本也越来越高。Gemini 3.1 Pro 的内部 thinking token 也要单独计费。
这意味着:简单任务越来越便宜,但复杂推理的总成本其实在上升——这是 2026 年 LLM 成本结构里最容易被忽视的矛盾。
结语
2022 年,LLM 是"少数公司才用得起的奢侈品"。2026 年,Token 成本已经降至一分钱级别,AI 应用的单位经济学发生了根本性转变。
但成本下降也带来新的工程挑战:如何在模型选择、缓存策略、路由层上做精细化运营,变得越来越重要。当 Token 便宜到近乎免费,工程能力的差距将直接体现在账单上。
下一次聊成本的时候,别再只盯着模型定价页——看看你的 Token 利用率、缓存命中率和路由效率,那才是真正的成本黑洞。
附:文中定价为 2026 年 3 月公开信息,实际价格请以各厂商最新定价为准。
