## 多语言LLM安全护栏评估:摘要
有效评估大型语言模型 (LLM) 需要根据特定语境、语言、任务和领域进行调整。随着开发者越来越依赖定制基准和“安全护栏”——确保安全且符合语境输出的工具,一个关键问题出现了:这些安全护栏是否在不同语言中保持一致性?
本研究结合了Mozilla的多语言AI安全评估和开源`any-guardrail`框架,使用模拟来自寻求庇护者的实际问题的情景,并将其翻译成波斯语,来调查安全护栏的行为。对三种安全护栏(FlowJudge、Glider 和 AnyLLM)进行了测试,分别使用英语和波斯语策略,并将它们的性能与人工评估进行比较。
结果显示存在显著的不一致性。仅基于策略语言(英语 vs. 波斯语),Glider 和 FlowJudge 显示出很大的分数差异,即使语义含义相同。AnyLLM 表现出分类差异。定性分析强调了安全护栏的“幻觉”——捏造信息——和有偏差的假设,尤其是在使用波斯语策略时。
该研究强调需要具有事实核查搜索能力的护栏、为了可靠性进行多次评估,以及针对特定用例(包括语言特定示例)定制的策略。最终,确保对难民等弱势群体的AI安全,需要超越以英语为中心的基准,并优先进行上下文感知、多语言评估。
## 嘟嘟嘟乐园:恼怒的庆祝
嘟嘟嘟乐园是东京一家百货商店的临时展览,以一种有趣的方式探索了普遍存在的被激怒的体验。展览的名字直译为“愤怒-愤怒-愤怒”,旨在通过互动展示和游戏将沮丧转化为乐趣。
游客佩戴着带有愤怒吉祥物的腕带,穿梭于各个区域,这些区域专门针对不同的烦恼来源——从米饭洒出这样的小不便,到与手机礼仪相关的常见失败。一个关键的主题围绕着日本血型性格理论,某些区域对特定血型的人“禁止进入”。
展览通过诸如向令人恼怒的场景扔球,以及在屏幕上“战胜”挫折等游戏来鼓励宣泄。作家大岛麻美发现自己竟然被周末加班请求等例子意外地触动,这突显了每个人“敏感点”的不同。
最终,嘟嘟嘟乐园提供了一个轻松的提醒,即每个人都会经历恼怒,而在这些日常挫折中找到幽默感是一种健康的应对方式。展览将持续到2026年2月25日,提供了一个独特的空间来承认和释放那些让我们成为人类的小烦恼。
最近的macOS 26.3更新最初似乎修复了一个博文中强调的窗口调整大小问题。测试应用程序证实了候选发布版中的修复,显示调整大小区域现在正确地遵循了窗口圆角半径——这是对先前方形区域的改进。然而,这项改进也带来了一个缺点:仅垂直/水平调整大小的区域明显变薄,增加了错过点击的机会。
令人惊讶的是,最终的macOS 26版本*移除了*这个修复,恢复到了最初的、存在问题的方形调整大小区域。苹果也更新了发布说明,将该问题状态从“已解决”更改为“已知问题”。 基本上,虽然最初承认了这个问题,但苹果最终发布了一个没有预期解决方案的版本。