LLM 语义缓存实战:用向量相似度将 API 成本降低 70%+

你和你的 LLM 应用,用户问了一个问题。系统查了一下,发现这个问题之前回答过——但因为用户换了一种问法(“请问病假政策” vs “我们有多少天病假”),传统的精确匹配缓存直接 miss 了。结果:一次昂贵的 LLM 调用、一个慢响应、一个肉疼的账单。 ...

进阶 · 2026-03-18 · 15 分钟 · 2789 字 · PengJiyuan
LLM 语义缓存

RAG 系统从零构建:原理、实现与工程化

RAG(Retrieval-Augmented Generation,检索增强生成)解决的是一个很实际的问题:大模型的知识有训练截止日期,不知道你公司内部的文档,也可能"一本正经地胡说"。 ...

2026-02-20 · 13 分钟 · 2270 字 · PengJiyuan
RAG 系统从零构建