随着大语言模型(LLM)的规模不断扩大,KV缓存的内存需求已成为瓶颈。尽管有损压缩(如降低位宽)可以缓解这一问题,但会带来模型质量下降的风险。“推测式KV编码”(Speculative KV coding)通过提供一种无损压缩方法解决了这一问题,在现有FP8方法的基础上实现了约4倍的额外压缩(总计约8倍)。 其核心思想是利用一个更快的“预测器”模型来估计目标模型的缓存。编码器和解码器并行运行此预测器,为每个缓存值生成统计模型(均值 $\mu$ 和方差 $\sigma^2$)。随后,算术编码器利用这些预测值将实际缓存值压缩为位流。由于双方都能根据提示词确定性地重建相同的 $(\mu, \sigma)$,因此原始缓存可以被精确恢复。 初步结果显示,尤其是在与预量化的FP8缓存结合使用时,该方法在比特率方面有显著提升。这种方法在带宽受限的场景下前景广阔,例如跨数据中心的分离式LLM服务或扩展主机RAM前缀缓存。下一阶段的开发重点将集中在更复杂的残差建模,并利用跨模型预测器,以进一步优化计算开销与内存节省之间的权衡。
作为 Jane Street 的一名设计师,作者起初对大语言模型(LLM)持怀疑态度,但如今已通过利用人工智能构建功能性原型而非静态模型,彻底改变了自己的工作流程。通过使用 Claude 等工具编写陌生语言(OCaml 和 Bonsai)的代码,作者现在能够直接在代码库中对实时功能进行迭代,从而绕过了 Figma 文件和规格说明文档等传统的“辅助性”设计产物。
这种方法实现了快速、高保真的实验,能够在不占用工程资源的情况下验证可行性并改善用户体验。虽然作者也指出了潜在的挑战——例如确保合作者有权对“成品化”的原型提出批评,以及避免人工智能辅助迭代带来的创造性限制——但这种转变赋予了设计师巨大的赋能。
通过在实际媒介中进行构建,作者重新获得了创建工作概念证明的能力,而这曾是工程师的专属特权。这种演变绕过了复杂的正式设计流程,使作者能够专注于打磨最终产物,并促进了更流畅、更直接的“设计到实现”过程。