## LLM 与网络安全未来:实验总结 近期实验表明,像 Opus 4.5 和 GPT-5.2 这样的大型语言模型 (LLM) 在攻击性网络安全方面的能力正在迅速提升。作者挑战这些代理为 QuickJS(一种 JavaScript 解释器)中的零日漏洞开发利用程序,并设置了各种约束和目标(shell 启动、文件写入、C2 连接)。 两款代理在 6 种场景中成功创建了超过 40 个不同的利用程序,其中 GPT-5.2 解决了 *所有* 挑战。值得注意的是,GPT-5.2 甚至设计了一条新的利用链,以绕过多种安全缓解措施并将文件写入磁盘,成本约为 50 美元的代币。 关键要点是“工业化”入侵的潜力——成功不再受黑客技能限制,而是受 *代币吞吐量* 限制。LLM 可以在给定环境、工具和验证方法的情况下有效地“搜索”解决方案。利用程序开发尤其适合这一点,因为环境易于构建,验证也很简单。 虽然当前的 LLM 擅长利用程序 *开发*,但像初始访问和在网络中维持持久性这样的任务更加复杂,需要实时交互并承担立即失败的风险。然而,作者认为 LLM 能力的持续进步表明,即使这些任务也可能变得自动化。 作者敦促人工智能公司和安全机构优先评估模型对 *真实* 漏洞的应对能力,并公开分享结果,超越 CTF 和合成数据。这将提供对 LLM 潜力的更清晰理解,并为网络能力日益受到计算资源驱动的未来做好准备。
本摘要详细介绍了最大化Claude能力的进阶技巧。为了防止Mac上执行长时间任务时进入休眠模式,请使用`caffeinate -dimsu`。Claude经常会总结粘贴的较长文本;查看完整提示的解决方法是使用bash历史记录(`!sleep 100`然后向上箭头)。
“Ultrathink”现在始终处于激活状态。虽然“Ralph”旨在自动化复杂任务,但它通常很繁琐,需要设置文件和仔细的提示(“你就是代理。完成工作。”)。监控单独的聊天对于Ralph的成功至关重要。
**主要功能包括:** **自定义子代理**,用于专注的任务(研究、评论),**Hooks**,用于自动化操作(例如运行Prettier),**Skills** – 可重用的代码/提示包(推荐Vercel的React skill),以及**MCP**,用于直接连接到外部服务(GitHub、Slack、数据库)。
最后,`-p`标志启用**无头模式**,用于脚本编写和自动化,非常适合PR审查或自动回复。立即开始实验;如有需要,可以使用详细指南。