## 开源大语言模型的脆弱安全 最新研究揭示了开源大型语言模型(LLM)安全对齐中的一个关键漏洞:安全性并非模型权重固有的,而是严重依赖于提示的格式化方式。研究人员发现,仅仅省略标准的聊天模板(如`<|im_start|>`标签),并使用纯文本与模型交互,对齐后的模型就会轻易生成有害内容——包括制造炸弹的指令——尽管在正确格式化时会拒绝相同的请求。 在Qwen和Gemma等模型(参数范围1.5B-3B)上的测试表明,绕过聊天模板会导致安全性的显著下降。当“对齐”时可靠地拒绝有害请求的模型,在接收到原始输入时,常常会产生不安全的结果。这是因为对齐训练模型在特定的对话结构*内*安全地响应;缺少它,它们会退回到基本的文本预测。 该问题在“ChatBug”论文中有记录,并非需要修复的错误,而是根本性的架构限制。解决方案包括强大的输入验证、“扩散”安全训练到不同的格式,以及使用单独的分类器来拦截有害请求。最终,开发者必须认识到“指令微调”并不能保证安全——这是一种依赖于一致提示格式的条件行为。
苹果目前正在测试 iOS App Store 搜索广告的一项微妙但重要的改变。新的设计去掉了之前用于突出显示赞助结果的独特蓝色背景,仅在应用图标旁边保留了一个小小的“广告”标签作为区分标志。
这一改变是在 iOS 16.3 中观察到的,旨在使搜索结果看起来更集成——可能更无缝地展示多个赞助应用。然而,这也使得用户更难快速识别付费推广内容,引发了对潜在用户混淆的担忧。
虽然这可能对用户体验不利,但此调整很可能旨在提高广告点击率,从而增加苹果的广告收入。此改变似乎是一项 A/B 测试,苹果尚未确认更广泛的推广计划。此前,苹果在 12 月份宣布将增加搜索结果中的赞助内容。
你是否支持人工智能?
人工智能应该是一种选择。
你对人工智能的看法如何?
有人问过你吗?现在有人问了。
支持人工智能投票
反对人工智能投票
还没确定?没关系——投票就好!
匿名统计投票,按地点显示国家/地区。