深度混合:在 Transformer 中动态分配计算
Mixture-of-Depths: Dynamically allocating compute in transformers

原始链接: https://arxiv.org/abs/2404.02258

arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。 与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。 您有一个能为 arXiv 社区增加价值的项目想法吗? 了解有关 arXivLabs 的更多信息。

文中提到的递归神经网络指的是当前深度学习技术之前过时的学术研究。 如今,循环神经网络(RNN)经常被误认为这个术语。 尽管它们之间存在差异,但过去失败的项目往往会带来成功的创新。 作者邀请对递归神经网络进行讨论,承认 RNN 和实际概念之间可能存在混淆。 他幽默地表示,读者在帖子中提出的建议可能是基于有限的知识。 他警告读者不要将他最初的模棱两可的言论解读为讽刺或攻击性的,并敦促沟通清晰。 他解释说,尽管有相似之处,但 RNN 中的注意力机制与提出的递归方法有很大不同。 传统 RNN 对所有输入同等重视,而先进算法则专注于重要输入,从而提高整体性能。 然而,现有方法存在局限性,通过更深入地探索注意力分配和计算资源的有效利用提供了创新空间。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com