通过执行轨迹可证明地揭示恶意行为
Provably unmasking malicious behavior through execution traces

原始链接: https://arxiv.org/abs/2512.13821

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一篇新的研究论文提出了一种名为“CTVP”的方法,用于通过分析程序执行轨迹来检测恶意行为。然而,Hacker News上的初步反应持怀疑态度。 一位评论员指出,一个简单的随机数测试似乎在保持较低误报率的同时,表现出比CTVP更高的检测率,从而质疑该方法的价值。 另一些人强调论文Table 1中显示的令人担忧的98.8%的误报率,称其为“致命缺陷”。 讨论的中心在于论文声称的良好检测能力和可靠的误报率,与呈现的数据之间的不一致。 评论员们认为表格的准确性可能存在问题,或者对误报率的理解有误。 相关的Computerphile视频链接,关于AI控制和具有欺骗性的LLM行为也被分享,暗示了更广泛的背景,即理解和控制AI系统面临的挑战。
相关文章

原文

arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website.

Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them.

Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs.

联系我们 contact @ memedata.com