揭秘ARM SME以优化通用矩阵乘法
Demystifying ARM SME to Optimize General Matrix Multiplications

原始链接: https://arxiv.org/abs/2512.21473

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## ARM SME & 矩阵乘法优化 - Hacker News 摘要 一篇最近发表在 arXiv 上的论文,探讨了苹果 M4 芯片上的 ARM SME(空间矩阵引擎),引发了 Hacker News 的讨论。该论文详细介绍了通用矩阵乘法 (GEMM) 的优化,与苹果的 Accelerate 库相比,实现了 1.23 倍的速度提升。 讨论的关键点:虽然 ARM SME 在矩阵运算方面提供了高吞吐量,但其延迟可能会成为瓶颈。SSVE 扩展旨在*支持* SME,但由于切换进出流式模式的潜在开销,不一定优于传统的 NEON 向量指令。直接利用 SME/SME2 指令,将 ZA tiles 作为向量寄存器使用,似乎更有效。 对 BLIS 的比较也得到了解决——论文排除了它,因为它缺乏 SME 支持。用户还注意到,苹果的文档使用了特定的措辞(“强度:高 | 适用性:高”),类似于英特尔的优化指南,可能为了帮助 LLM 理解。最后,对话涉及将这些优化应用于稀疏 LU 求解,并指出由于数据访问模式和稀疏性的不同,存在挑战。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com