软件工程正经历由人工智能驱动的快速转型,从注重优雅代码的工匠模式转向大规模生产模式。尽管最初受到抵制,但大型语言模型的强大能力已毋庸置疑,一些公司已经依赖人工智能编写绝大部分代码。这种变化让那些珍视编程艺术的工程师感到不安,产生了一种“深蓝”式的职业恐惧。 然而,*有效*软件工程的核心原则——关注结果、团队协作以及像持续部署这样的健全流程——仍然至关重要,并且在应对加速的代码生产速度时,甚至*更加*重要。重点正在从代码层面的“品味”转移到架构直觉。 未来是不确定的,因为人工智能理论上可以自动化甚至这些更高层次的技能。但就目前而言,经验丰富的工程师可以在协调人工智能代理并利用这种新方法带来的极快反馈循环中找到价值,即使在这一创造性破坏带来的悲伤和 disruption 中。
## NNUE 激活函数改进:总结
对 Viridithas NNUE 网络进行的实验表明,用 Swish 和 SwiGLU 替换平方裁剪 ReLU (SCReLU) 激活函数可以显著提高性能。 最初,将第 1 层和第 2 层的 SCReLU 替换为 Hard-Swish 近似值导致稀疏性降低,从而对推理速度产生负面影响。 通过向损失函数添加正则化项来解决此问题,该正则化项惩罚密集激活并恢复稀疏性。
由此产生的 Swish 网络表现出巨大的 Elo 提升:在较长的时间控制下提升 +13.77 Elo,在较短的时间控制下提升 +3.09。 通过将第 2 层的 Swish 替换为 SwiGLU,进一步提高了性能,Elo 提升了 +5.47。
有趣的是,最终的激活序列(成对 ReLU、Swish、SwiGLU、Sigmoid)反映了另一个强大引擎 PlentyChess 中发现的成功配置(CReLU + SCReLU),这表明深度学习激活策略在国际象棋 NNUE 设计中具有潜在的更广泛适用性。 作者计划进一步探索将专家混合和学习路由等深度学习技术集成到 NNUE 架构中。
我明白了!
科学文章,解释说明。
上传科学PDF,获取可分享、交互式网页,用通俗易懂的语言解释它。
最近的解释
浏览图库
‹
›
在此处拖放PDF,或点击浏览
最佳文件大小低于10 MB
上传并生成
上传PDF
安全检查与分类
阅读论文
生成交互式页面
发布到网络
复制
重新创建
输入令牌
输出令牌
总成本
© 2026 Amroja LLC
常见问题解答
johndamask.com