显示 HN:一半乘法的矩阵乘法
Show HN: Matrix Multiplication with Half the Multiplications

原始链接: https://github.com/trevorpogue/algebraic-nnhw

GitHub 存储库:“trevorpogue/algebraic-nnhw”是一个开源项目,其中包含 ML 硬件架构的源代码,该架构需要更少的乘法器单元来提供更高的性能。 它引入了一种名为自由管道快速内积 (FFIP) 的新算法,具有各自的硬件架构,基于 1968 年较少探索的快速内积 (FIP) 算法。该架构非常灵活,适用于各种机器学习 (ML) 层。 通过在不改变总体硬件成本的情况下为 ML 加速器提供更高的理论吞吐量和计算效率,FFIP 可以使用一半的 MAC 单元实现类似的吞吐量水平,或者在恒定的硬件投资下将最大的 ML 设备尺寸加倍。 ML加速器由三部分组成:FIP/FFIP PE、乘法器单元和互连网络。 此外,还提供了针对特定 ML 模型的优化 FFIP 算法版本以及开发所需的标准编译器、测试和实用脚本。 配置参数包括脉动阵列尺寸和输入数据宽度。

本文讨论 Winograd 算法,一种矩阵乘法的优化技术。 该算法涉及设计与矩阵维度匹配的定制硬件,从而大幅减少乘法运算。 然而,这里介绍的实现是专门针对定点运算的,以确保数值一致性。 读者质疑该算法的重要性,指出它似乎与前面讨论的矩阵乘法方法密切相关,并询问这种较旧的 Winograd 算法缺乏可见性是否是由于其成本影响或其他原因。 文本承认存在其他方法,在准确性、运行时间和可扩展性方面具有不同的权衡。 尽管担心潜在的浮点精度损失,但作者解释说,这项工作的重点是定点乘法累加 (MMA),与浮点实现相比,它可以保持精确的结果。 作者最后强调了持续改进矩阵运算对于机器学习应用的重要性。
相关文章

原文
联系我们 contact @ memedata.com