恶意软件开发者在他们的间谍软件中加入了核武器和生物武器的相关文本。

恶意软件开发者在他们的间谍软件中加入了核武器和生物武器的相关文本。
Malware developers added nuclear and biological weapons text to to their spyware

原始链接: https://twitter.com/jsrailton/status/2064661778978533571

恶意软件开发者发现了一种规避人工智能安全扫描器的巧妙方法：在代码中注入关于核武器和生物武器的文本。这一策略利用了现代大语言模型（LLM）内置的激进式“安全拒绝”机制。由于这些模型被设定为在遇到敏感或危险话题时触发拒绝机制，恶意代码实际上令人工智能“失明”，从而阻碍了其对文件的分析。安全研究员约翰·斯科特-雷尔顿（John Scott-Railton）指出，这是一个因过度关注人工智能安全性而引发“二阶”风险的关键案例。由于对模型的限制过于严格，开发者无意中制造了攻击者可以轻易利用的盲点。随着网络安全对人工智能的依赖日益增加，这一趋势表明，我们需要开发不会因对抗性提示而受阻、能够处理复杂威胁的“安全钝化程度较低”的模型。归根结底，这凸显了设计能够识别意图的恶意软件分析流程的必要性，以防止此类操纵行为。

最近的一场 Hacker News 讨论探讨了恶意软件开发者的一种新策略：在代码中嵌入与核武器和生物武器相关的文本。这一策略旨在触发人工智能安全分析工具中的“拒绝”机制，从而可能导致这些系统出错、退出或跳过后续检查。这凸显了威胁行为者与自动化代码审查模型之间日益激烈的博弈。社区的辩论主要集中在以下几点： * **防护机制的有效性：** 一些人认为这些限制很容易被绕过且没有必要，并指出武器相关信息在网上已广泛存在。另一些人则认为，维持这些安全防护机制仍然是一项合理的政策。 * **安全影响：** 安全专家指出，这种“投毒”内容为标记恶意软件包提供了一个简单的信号。然而，这也向防御者发出警告，即攻击者正在积极学习如何操纵人工智能分析。 * **实用性：** 许多参与者认为，通过大语言模型获取技术信息并不是制造武器的主要障碍；真正的难点在于获取专业的资源和基础设施。总之，这场讨论强调了在防御对抗性人工智能提示攻击时，保护自动化流程所面临的挑战。

Post

Log in Sign up

John Scott-Railton

@jsrailton

NEW: malware developers added nuclear & biological weapons text to to their spyware. Goal? To trigger LLM safety refusals... so that their spyware wouldn't be analyzed by an AI security scanner. Cleanest practical example I can think of for why over-indexing on first order safe When closed (and open) models ship with aggressive refusals, they will be sprinkled with second-order blindspots that attackers will discover...and exploit. We are only in the earliest days of attackers leveraging these features, and it wouldn't surprise me if users systems that need to handle complex cybersecurity issues demand that models be less safety-blunted. In the weeds: @SocketSecurity's post also shows why intention matters in how you design a malware analysis pipeline to avoid prompt manipulation. H/T to colleagues that shared this with me socket.dev/blog/mini-shai…

10:51 AM · Jun 10, 20261.5MViews