| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=39726781
本次讨论围绕实现高效的机器学习算法展开,特别关注 Transformer 和名为“FlashAttention”的近似注意力。 用户更喜欢使用 Triton 编写自定义内核,因为它易于集成到现有工具链和抽象层中,并且不会对性能产生负面影响。 他们提到,甚至 FlashAttention 的创建者也从 Cutlass 转向 Triton。 尽管 Triton 目前仅支持 AMD GPU,但它提供了块级编程和超参数自动优化等优势,使得开发快速内核变得更加简单。 关于零成本与非零成本抽象的争论仍在继续。 双方都同意 Triton DSL(训练、推理、建模)可以使构建复杂的机器学习架构变得更容易。
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
reply