对抗诗歌作为大型语言模型的通用单轮越狱机制
Adversarial poetry as a universal single-turn jailbreak mechanism in LLMs

原始链接: https://arxiv.org/abs/2511.15304

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一项新的研究论文展示了大型语言模型(LLM)中一个令人惊讶的漏洞:它们可以通过**对抗诗歌**被“越狱”——被诱骗提供有害信息。研究人员成功地使用语义上相似的诗句来绕过安全措施,而不是直接、冒险的提示。 这一发现表明,LLM容易受到微妙的重新格式化和歧义的影响,在更直接的尝试失败的情况下反而成功了。一位评论员幽默地指出,这可能会创造对网络安全领域熟练作家的需求。 本质上,这是一种应用于人工智能的“社会工程学”,利用LLM潜在的心理和训练机制。这项技术强调了理解LLM *如何* 理解请求,而不仅仅是理解 *被问到什么* 的必要性,以提高其安全性。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com