提示注入攻击是对大型语言模型(LLM)的主要安全风险,可能允许攻击者控制模型或窃取数据。虽然提示防护模型旨在防止这些攻击,但它们常常表现出“过度防御”,由于常见的触发词而错误地将无害输入识别为恶意。 研究人员推出了**NotInject**,一个专门用于衡量这种过度防御问题的新数据集。他们对现有模型的评估显示,当暴露于包含这些触发词的良性提示时,准确率大幅下降——降至随机水平。 为了应对这个问题,他们开发了**PIGuard**,一种新的提示防护模型,利用了一种名为**免费缓解过度防御 (MOF)**的训练策略。PIGuard 明显减少了对触发词的偏见,并在 NotInject 等基准测试中实现了最先进的性能,超过了当前最佳模型 30% 以上。PIGuard 也是开源的,提供更可靠的提示注入防御。
## 阿尔忒弥斯2号分享首张地球图像
美国宇航局阿尔忒弥斯2号的宇航员们发布了令人惊叹的高分辨率地球图像,他们正前往月球——自1972年以来,人类首次旅行到地球轨道之外。指挥官里德·维斯曼在一次成功的引擎燃烧推动猎户座飞船进入超过20万英里的轨道后,拍摄了这些照片。
这些图像展示了大西洋、极光,甚至金星,从他们的视角来看,地球显得“上下颠倒”。一张引人注目的照片突出了白天和黑夜之间的分界线,被称为分界线。
最初,由于距离问题,曝光设置对维斯曼和船员提出了挑战,他们迅速适应,并热情地记录了他们的视野。他们甚至要求提供窗户清洁用品!
阿尔忒弥斯2号将于4月6日绕月球背面飞行,并于4月10日返回地球。这项任务是美国宇航局到2028年再次将人类送上月球的关键一步。