提示缓存:10倍更便宜的LLM tokens,但如何实现?
Prompt caching: 10x cheaper LLM tokens, but how?

原始链接: https://ngrok.com/blog/prompt-caching/

## 理解LLM提示词缓存 提示词缓存通过重用先前计算的数据,可以大幅降低LLM成本(高达10倍)和延迟(可能高达85%)。它*并非*仅仅是重新提供缓存的响应;相反,提供商存储来自处理输入提示的中间结果——具体来说是LLM的transformer架构中的“attention”机制期间生成的“K”和“V”矩阵。 LLM通过将文本转换为数字token,然后将这些token嵌入到表示其含义的高维空间中来工作。然后,transformer使用“attention”来衡量每个token相对于其他token的重要性。这个过程涉及大量的计算,而K和V矩阵代表了该计算的关键部分。 缓存这些矩阵允许后续使用相同(或相似)提示的请求跳过重新计算它们,从而显著加快处理速度。像OpenAI这样的提供商会自动管理缓存,而Anthropic则提供更多的控制权。重要的是,像温度这样的参数不会影响缓存的有效性,因为它们是在“attention”机制*之后*应用的。 最终,理解提示词缓存揭示了LLM运作方式以及如何优化其使用以实现成本和性能的更深层洞察。随着LLM越来越集成到各种应用程序中,这种知识至关重要。

一篇最近的 Hacker News 帖子,作者为“samwho”,讨论了一种通过提示缓存实现 10 倍更低 LLM 代币成本的方法,详细信息在 ngrok.com 上(但一位评论员指出链接已损坏)。该帖子引发了关于缓存对 LLM 性能的重大影响的讨论。 一位评论员“simedw”赞扬了清晰的解释,以及将代币与嵌入关联的特定可视化效果。他们还分享了将 Hugging Face transformer 转换为 Core ML 的困难,特别是 KV 缓存导致速度变慢的问题。“samwho”回复说,提到了他们在 GitHub 上的工具“llmwalk”,在那里他们遇到了类似的与缓存相关的性能问题。 另一位用户“Youden”报告说,即使在禁用广告拦截的情况下,也无法访问链接的 ngrok.com 内容,遇到了错误。
相关文章

原文
联系我们 contact @ memedata.com