2022 年 12 月,GPT-4 的 API 价格是每百万 Token 输入约 30 美元、输出约 60 美元。那时候能"用得起"大模型的公司屈指可数。

不到三年后,2026 年 3 月,Google Gemini 3.1 Flash-Lite 上线:每百万 Token 输入仅 0.25 美元,输出 1.5 美元。同等性能的成本下降超过 200 倍

这不是线性递减,而是指数级的成本革命。本文梳理 2026 年 LLM 推理定价格局、工程降本策略,以及这场成本崩塌真正打开的应用空间。

一、定价图谱:几分钱 Token 的时代

1.1 当前主流模型定价(2026 年 3 月)

模型输入 $/M Token输出 $/M Token定位
GPT-5.4$2.50$10前沿通用
Claude Opus 4.6$5$25旗舰推理
Claude Sonnet 4.6$3$15高性价比旗舰
Gemini 3.1 Pro$2$12多模态旗舰
Gemini 3 Flash$0.50$3高性能快模型
Gemini 3.1 Flash-Lite$0.25$1.50成本敏感型
Claude Haiku 4.5$1$5轻量级
DeepSeek-V3(开源)~$0.028~$0.28自托管参考

数据来源:各厂商官方定价页,2026 年 3 月。Batch API 和上下文缓存不在上述基准价内。

关键数字:Gemini 3.1 Flash-Lite 的输出成本,比两年前的 GPT-4 便宜 97%

1.2 成本下降的速度

量化这个趋势:

  • 2022 年底:GPT-4 级别能力 ≈ $20–60/M token
  • 2024 年中:GPT-4o Mini 将输入打到 $0.60/M
  • 2025 年初:DeepSeek-V3 以 $0.28/M 输出打破市场
  • 2026 年 3 月:Flash-Lite 输入 $0.25/M,输出 $1.50/M

相当于:每年 10 倍的降幅,持续三年。作为对比,摩尔定律是每 18 个月降一半,即每年约 30% 的降幅。LLM 推理成本的下降速度是摩尔定律的 30 倍以上

背后驱动因素有三个:

  1. 算法效率提升:更小的模型达到以前大模型的能力,量化、剪枝、蒸馏技术成熟
  2. 硬件进步:H100 → H200 → Rubin,GPU 每代推理吞吐量提升 2–3 倍
  3. 市场竞争:Google、Anthropic、OpenAI、xAI 多方竞争,价格战激烈

二、被成本打开的应用空间

Token 价格的量级变化不只是"更便宜了"——它让一些原本根本不可行的场景变得经济上合理。

2.1 高频 Agent 工作流

一个 AI Agent 完成复杂任务平均消耗 10,000–50,000 Token(输入+输出)。按 GPT-4 时代的成本($30+M),单次任务成本 $0.30–$1.50,规模化后根本无法承受。

按 Gemini 3.1 Flash-Lite 成本:

50,000 Token × $0.00175/T ≈ $0.0875/任务

每天处理 100 万次任务,月成本约 $2,600——这在企业级 Agent 产品里是完全可接受的。

2026 年初,Claude Sonnet 4.6 以 $3/$15 的"旗舰性能+中端价格"切入,让 每日千万次级别 的 Agent 调用首次进入可行性区间。

2.2 实时语音对话

实时语音对 Token 延迟和成本同时敏感。传统语音助手每次响应需要:

  • ASR(语音→文字):$0.01–0.05/次
  • LLM 推理:$0.05–0.20/次
  • TTS(文字→语音):$0.01–0.05/次

合计每次交互 $0.07–0.30,按 Gemini Flash-Lite 成本,LLM 部分降到 $0.002/次,整体交互成本压缩到 $0.015 以下。这意味着语音 AI 产品可以支撑免费用户级别的大规模部署。

2.3 个性化 AI 服务

过去训练专属模型成本极高(数万美元)。现在可以通过上下文缓存实现几乎零额外成本的个性化:

  • 将用户历史会话、偏好文档缓存在上下文窗口内
  • 后续请求只需处理新增 Token,缓存 Token 不重复计费
  • Google 的上下文缓存可将重复前缀的成本降低 90%

三、工程降本策略

Token 定价只是表面。真正的工程成本取决于 GPU 利用率、Token 消耗效率和模型选择策略。

3.1 上下文缓存(Context Caching)

这是 2025–2026 年最被低估的降本工具。原理很简单:对于包含大量固定内容的请求(如系统提示词、工具定义、长文档),首次计算 KV 缓存后复用,后续请求只支付新增 Token 的费用。

各厂商缓存定价:

厂商模型缓存输入折扣
GoogleGemini 系列缓存输入 $0.03/M(vs 基准 $0.30)
AnthropicClaude 系列缓存输入 $0.30/M(vs 基准 $3.75)
xAIGrok缓存输入 $0.05/M

实际案例:RAG 场景中,每次查询附带的检索上下文可能有 50,000 Token。如果不做缓存,每次查询都要支付 50,000 Token 的输入费用。开启缓存后,只有首次需要支付完整费用,后续查询只需支付用户本次新增的 Query Token。

3.2 智能路由(Model Routing)

不同任务需要不同能力层级。用 Sonnet 处理"今天天气如何"和用 Haiku 处理"请分析这份 200 页财报"都是浪费。

构建路由层的原则:

def route_task(task: str, context: str = "") -> str:
    # 简单信息查询 → 最便宜的模型
    if is_simple_fact_lookup(task):
        return "gemini-flash-lite"

    # 需要推理但不复杂 → 中端模型
    if needs_reasoning(task) and not needs_deep_analysis(task):
        return "claude-haiku"

    # 复杂推理 / 代码 / 多步规划 → 旗舰模型
    return "claude-opus"  # 或按成本选 sonnet-4.6

这个路由层做得好,平均成本可下降 60–80%,同时不损失任务质量。

3.3 批处理(Batch Processing)

Google Batch API 提供 50% 折扣,代价是 24 小时内完成。适合离线分析、内容生成等非实时任务。

实际测算:一个每天生成 10 万篇文章摘要的 pipeline,使用 Batch API 比实时调用节省 50% 成本,一年就是数十万美元的差距。

3.4 量化与蒸馏

对于有 AI 基础设施能力的团队:

  • INT4 量化:可将 70B 模型的内存占用减少 75%,推理速度提升 2–3 倍
  • 知识蒸馏:用大模型输出训练小模型,专门处理高频简单任务
  • Speculative Decoding:用小模型猜测、大模型验证,延迟降低 2–3 倍

Llama 4 7B 在 INT4 量化后,MMLU 仍能保持 60+(vs 原始 FP16 的 65+),但推理速度快了 3 倍、显存需求从 14GB 降到 4GB——这意味着一块 MacBook M3 Pro 就能跑量化版 Llama 4 7B

四、自托管 vs API:何时自建

2026 年,开源模型的性能已经非常接近闭源前沿:

  • Llama 4 Maverick:$0.24/$0.97/M Token(via Together.ai),MMLU 72+
  • DeepSeek-V3:~$0.028/$0.28/M Token,开源可自托管
  • Qwen 3.5(阿里):多模态能力强,开源版本可量化部署

自托管的盈亏平衡点取决于团队规模和使用量:

规模建议方案理由
< $500/月 API 支出纯 API运维成本不划算
$500–5,000/月混合:简单任务 API + 自托管简单模型
> $5,000/月评测自托管成本,优先高频场景迁移
极高吞吐(数亿Token/天)完整自托管 + 量化GPU 利用率足够高

一个快速估算自托管是否合算的公式:

自托管月成本 ≈ (GPU数量 × GPU小时费 × 24 × 30) + 运维人力成本
API月成本 ≈ Token消耗量 × 单位价格

盈亏平衡点:约 50% GPU 利用率

H100 每小时约 $2.5–3.5(2026 年价格),一个月约 $1,800–2,500。只要每天 Token 消耗超过 $60(用 Gemini Flash-Lite 约 3400 万输出 Token),自托管就有经济意义。

五、定价趋势预判

5.1 还会继续降吗?

会,但速度会放缓。

  • 算法效率的红利还没吃完(当前模型仍然存在大量冗余计算)
  • 硬件从 H100 → Rubin → 下一代,推理密度还在提升
  • 市场竞争没有减弱迹象

预判:2026 年底,Gemini Flash-Lite 级别的成本可能再降 30–50%,达到输入 $0.1/M Token 量级。

5.2 什么不会降价

推理时计算(Test-Time Compute)不降反升。o1/o3、Claude Opus 4.6 等推理模型在回答前会运行超长思维链,输出的"思考 Token"越来越多、成本也越来越高。Gemini 3.1 Pro 的内部 thinking token 也要单独计费。

这意味着:简单任务越来越便宜,但复杂推理的总成本其实在上升——这是 2026 年 LLM 成本结构里最容易被忽视的矛盾。

结语

2022 年,LLM 是"少数公司才用得起的奢侈品"。2026 年,Token 成本已经降至一分钱级别,AI 应用的单位经济学发生了根本性转变。

但成本下降也带来新的工程挑战:如何在模型选择、缓存策略、路由层上做精细化运营,变得越来越重要。当 Token 便宜到近乎免费,工程能力的差距将直接体现在账单上

下一次聊成本的时候,别再只盯着模型定价页——看看你的 Token 利用率、缓存命中率和路由效率,那才是真正的成本黑洞。


附:文中定价为 2026 年 3 月公开信息,实际价格请以各厂商最新定价为准。