本文提出了一种新方法来解决大型语言模型 (LLM) 的两个主要局限性:缺乏内省和短暂的认知。它引入了“Sidecar Transformers”(侧车变换器)系统,该系统使用轻量级的编码器-解码器模型将LLM的内部状态(隐藏状态和键/值缓存)压缩成紧凑的潜在表示。其假设是变换器激活位于低维流形上,允许从该潜在空间进行高保真重建。
作者提出并比较了几种用于侧车模型的架构方法,包括特定层、分组和统一的编码器-解码器结构。他们还介绍了一种压缩键/值缓存的专门方法,以应对其独特的挑战。这种压缩技术能够实现新的功能,例如推理回溯、基于思维轨迹的强化学习以及高效的调试。通过允许LLM保存和操作它们的“思维状态”,这种方法促进了更透明、更可控,最终更能自我改进的AI系统。本文设想未来LLM将发展成为能够进行反思性自我改进的审慎认知系统。