多标记注意力
Multi-Token Attention

原始链接: https://arxiv.org/abs/2504.00927

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认同我们开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与坚持这些价值观的合作伙伴合作。有提升arXiv社区价值的项目想法?了解更多关于arXivLabs的信息。

多标记注意力机制是一种新兴方法,但核心问题在于它能否在等量计算资源下(即考虑计算成本的性能)带来性能提升。一位评论者指出,虽然在不同领域增加计算量可以提高性能,但真正的考验在于其效率。另一位评论者指出,对于长上下文而言,基于卷积的方法,例如英伟达的Evo2模型,甚至在卷积运算完全优化之前,就能胜过纯注意力机制的方法。Evo2在超过64k上下文长度时,性能优于优化的Transformer模型。此外,LLM中卷积的复兴也值得关注,例如采用基于卷积的Hyena算子的Hyena2架构,其中卷积用于细化注意力权重。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com