RAG | 棱镜空间

LLM 语义缓存实战：用向量相似度将 API 成本降低 70%+

你和你的 LLM 应用，用户问了一个问题。系统查了一下，发现这个问题之前回答过——但因为用户换了一种问法（“请问病假政策” vs “我们有多少天病假”），传统的精确匹配缓存直接 miss 了。结果：一次昂贵的 LLM 调用、一个慢响应、一个肉疼的账单。 ...

RAG（Retrieval-Augmented Generation，检索增强生成）解决的是一个很实际的问题：大模型的知识有训练截止日期，不知道你公司内部的文档，也可能"一本正经地胡说"。 ...