显示 HN：一半乘法的矩阵乘法

显示 HN：一半乘法的矩阵乘法
Show HN: Matrix Multiplication with Half the Multiplications

原始链接: https://github.com/trevorpogue/algebraic-nnhw

GitHub 存储库：“trevorpogue/algebraic-nnhw”是一个开源项目，其中包含 ML 硬件架构的源代码，该架构需要更少的乘法器单元来提供更高的性能。它引入了一种名为自由管道快速内积 (FFIP) 的新算法，具有各自的硬件架构，基于 1968 年较少探索的快速内积 (FIP) 算法。该架构非常灵活，适用于各种机器学习 (ML) 层。通过在不改变总体硬件成本的情况下为 ML 加速器提供更高的理论吞吐量和计算效率，FFIP 可以使用一半的 MAC 单元实现类似的吞吐量水平，或者在恒定的硬件投资下将最大的 ML 设备尺寸加倍。 ML加速器由三部分组成：FIP/FFIP PE、乘法器单元和互连网络。此外，还提供了针对特定 ML 模型的优化 FFIP 算法版本以及开发所需的标准编译器、测试和实用脚本。配置参数包括脉动阵列尺寸和输入数据宽度。

本文讨论 Winograd 算法，一种矩阵乘法的优化技术。该算法涉及设计与矩阵维度匹配的定制硬件，从而大幅减少乘法运算。然而，这里介绍的实现是专门针对定点运算的，以确保数值一致性。读者质疑该算法的重要性，指出它似乎与前面讨论的矩阵乘法方法密切相关，并询问这种较旧的 Winograd 算法缺乏可见性是否是由于其成本影响或其他原因。文本承认存在其他方法，在准确性、运行时间和可扩展性方面具有不同的权衡。尽管担心潜在的浮点精度损失，但作者解释说，这项工作的重点是定点乘法累加 (MMA)，与浮点实现相比，它可以保持精确的结果。作者最后强调了持续改进矩阵运算对于机器学习应用的重要性。

显示 HN：一半乘法的矩阵乘法 Show HN: Matrix Multiplication with Half the Multiplications

显示 HN：一半乘法的矩阵乘法
Show HN: Matrix Multiplication with Half the Multiplications