关于视觉Transformer,每个人都应该知道的三个方面
Three things everyone should know about Vision Transformers

原始链接: https://arxiv.org/abs/2203.09795

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。与arXivLabs合作的个人和组织都已接受并认同我们开放、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。是否有提升arXiv社区价值的项目想法?了解更多关于arXivLabs的信息。

Hacker News 上的一个帖子讨论了一篇名为“每个人都应该知道的关于视觉Transformer的三件事”的论文。 这个标题引发了关于其是否为点击诱导的争论,一些人将其比作博客标题,另一些人则认为它是一个双关语。用户们就学术论文标题的有效性和动机进行了辩论,并将它们与更直接的技术性标题进行了对比。 讨论强调了大型语言模型 (LLM) 在总结研究论文方面的应用日益增多,一些人发现 LLM 的总结比原始摘要更有帮助,因为 LLM 总结更适合积极的科研人员每天浏览摘要,而不是休闲读者。一位用户还提供了一个 LLM 生成的要点列表,概述了关键内容:视觉 Transformer 可以并行化以提高效率;微调注意力层通常就足够了;基于 MLP 的 patch 预处理改进了掩码自监督学习。其他人建议阅读摘要或引言/结论部分。

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com