FFT反击:自我注意的有效替代品
The FFT Strikes Back: An Efficient Alternative to Self-Attention

原始链接: https://arxiv.org/abs/2502.18394

雅各布·费因·阿什利(Jacob Fein-Ashley)的论文,“ FFT反击:一种有效的自我注意事项替代方案”,介绍了FFTNet,这是一种新型方法,用于捕获具有提高计算效率的序列中的长期依赖性。 FFTNet解决了自我注意机制的二次复杂性,利用快速的傅立叶变换(FFT)来实现$ \ Mathcal {o}(o}(n \ log n)$时间的全局令牌混合。核心思想涉及将输入序列转换为频域,从而利用Parseval定理提供的正交性和能量保存的特性。 FFTNET采用可学习的光谱过滤器和Modrelu激活来动态强调相关的频率组件。这种自适应光谱过滤方法为传统自我注意力提供了更有效,更严格的替代方法。诸如远程竞技场和影像网等基准测试的实验结果表明,FFTNet的表现优于固定的基于傅立叶变换的方法和标准注意模型,从而验证了其理论基础和实际有效性。本文提出了一种令人信服的方法,用于处理各种应用中的长序列。

在01.06.2025,Slack讨论围绕将快速傅立叶变换(FFT)应用于LLM。核心思想是将令牌视为高维空间中的信号,并将其转换为频域中,以有效地分析模式,预测和压缩。 提到了几种潜在的好处,包括在训练和推理过程中降低了计算复杂性,尤其是对于长篇文化序列,以及使用信号滤波技术将模型行为与人类语言模式排列的潜力。 但是,某些参与者质疑这种方法的可行性和实际收益。主要问题是GPU体系结构的限制,用于FFT固有的复杂数量计算,至关重要的令牌相互作用的潜在损失(例如否定)以及时间域和频域之间的转换成本。 尽管FFT和傅立叶神经操作员(FNO)在图像处理和解决PDE等领域取得了成功,将其应用于文本数据带来了独特的挑战。讨论将FNO视为酷理论,但质疑其相对于现有LLM架构的实用性和表现。

原文

View a PDF of the paper titled The FFT Strikes Back: An Efficient Alternative to Self-Attention, by Jacob Fein-Ashley

View PDF HTML (experimental)
Abstract:Conventional self-attention mechanisms incur quadratic complexity, limiting their scalability on long sequences. We introduce FFTNet, an adaptive spectral filtering framework that leverages the Fast Fourier Transform (FFT) to achieve global token mixing in $\mathcal{O}(n\log n)$ time. By transforming inputs into the frequency domain, FFTNet exploits the orthogonality and energy preservation guaranteed by Parseval's theorem to capture long-range dependencies efficiently. A learnable spectral filter and modReLU activation dynamically emphasize salient frequency components, providing a rigorous and adaptive alternative to traditional self-attention. Experiments on the Long Range Arena and ImageNet benchmarks validate our theoretical insights and demonstrate superior performance over fixed Fourier and standard attention models.
From: Jacob Fein-Ashley [view email]
[v1] Tue, 25 Feb 2025 17:43:43 UTC (366 KB)
[v2] Wed, 26 Feb 2025 16:31:58 UTC (367 KB)
联系我们 contact @ memedata.com