## Claude “超思考”更新:摘要
先前用于解锁Claude完整推理能力(31,999个思考token)的“超思考”关键词现已弃用。对于支持的模型(Opus 4.5, Sonnet 4/4.5, Haiku 4.5),扩展思考已**自动启用**,默认值为相同的31,999个token。
然而,一项隐藏功能允许拥有64K输出模型的用户通过设置环境变量`MAX_THINKING_TOKENS=63999`将思考预算**翻倍至63,999个token**。 这为复杂任务解锁了显著更多的推理能力。
并非*总是*更多的思考token更好——它们会增加成本和延迟。 31,999个token适用于大多数编码和调试,而63,999个token则有利于复杂系统设计和性能优化。
可以通过设置`MAX_THINKING_TOKENS=0`来禁用思考。 这一转变反映了更广泛的行业趋势,即集成推理,这得益于研究表明,增加“测试时计算量”——通过这些思考token实现——可以扩展模型的计算能力并提高性能。
奥斯汀·亨利被3Blue1Brown提出的一个谜题所吸引:一只瓢虫从时钟的12点开始,随机移动到相邻的刻度,直到访问所有刻度。它最终停在某个特定数字(例如6)上的概率是多少?
起初,亨利猜测6最有可能,因为它的距离较远,但他的直觉被证明是错误的。他构建了一个模拟器来测试他的假设,期望基于与起点的接近程度出现某种模式。然而,经过数千次运行(最终超过10,000次),模拟器揭示了一个令人惊讶的结果:**每个数字(1-11)都有相同的概率1/11作为最终停靠点。**
这个谜题突出了直觉在随机游走问题中很容易被误导。亨利还提出了一个后续问题:瓢虫访问所有12个刻度平均需要多少步?邀请进一步探索。
## OpenCode AI Agent 漏洞:严重安全风险
流行的开源AI编程代理OpenCode最近遭受了一个关键的远程代码执行(RCE)漏洞,其危险性和易利用性远高于许多其他漏洞。与需要特定条件(如过去Bottlerocket OS问题)的复杂漏洞利用不同,这个漏洞——存在于v1.1.10版本之前——允许攻击者通过OpenCode的HTTP服务器,利用暴露的shell命令、终端会话和文件访问端点来执行任意代码。
这意味着恶意行为者可以获得运行易受攻击版本的系统的完全控制权,可能安装后门、窃取数据或破坏云资源。该风险因代理固有的权限而加剧——通常镜像用户的权限,从而授予对敏感数据的访问权限,例如SSH密钥和云凭据。
除了RCE之外,OpenCode还容易受到提示注入攻击,可能允许攻击者操纵AI的行为并进一步破坏系统。该事件凸显了AI代理领域的一个关键差距:缺乏强大的遥测和审计工具。目前,了解代理*如何*被破坏几乎是不可能的,这使得潜在的数千名开发人员和公司面临风险,且几乎没有补救措施。作者认为,构建“任务控制”——对代理操作的全面监控和记录——对于安全和可扩展的AI开发至关重要。
## SIMD 探索:深入研究 AVX-512 性能与可编程性
本次探索研究了 SIMD(单指令多数据)范式,特别是 AVX-512,并将其与 CUDA 等 SIMT(单指令多线程)进行对比。作者在其他并行化方法方面经验丰富,旨在评估性能扩展性和编程复杂性。
以 K-Means 图像分割作为基准测试——这是一个计算密集型问题,非常适合 SIMD——该研究比较了标量代码、自动向量化代码(GCC 和 Intel 编译器)以及手动优化的 AVX-512 内联函数。自动向量化显示出有限的扩展性,远低于理论上的 16 倍潜力。内联函数在标量代码上实现了 7-8.5 倍的加速,更接近预期结果,但仍然需要大量的手动优化。
一个关键发现是,虽然 CUDA 抽象了 SIMD 的冗长性,但它引入了诸如 warp 差异和非合并内存访问等复杂性。SIMD 尽管底层,但提供了一条更直接的路径来达到硬件限制。作者认为,随着功能强大的 LLM 能够从标量版本生成优化的 SIMD 代码,显式 SIMD 编程可能会变得越来越可行,从而在硬件利用率和可管理的开发工作之间取得平衡。结论是积极的,表明 AVX-512 既具有高性能,又具有令人惊讶的可编程性,尤其是在 AI 辅助下。