本报告旨在评估 Anthropic 的“Mythos”是否在发现安全漏洞方面具有独特能力,还是其排他性仅是出于商业决策。作者创建了一个包含九个已确认且处于模型训练截止日期之后的漏洞基准测试,用于在没有任何外部提示的情况下测试各类大语言模型识别漏洞的能力。
主要结论如下:
* **模型表现**:没有任何公开模型能达到 Mythos 的水平,Mythos 成功发现了四个其他所有模型都未能察觉的漏洞。
* **模型领先者**:表现优异的模型包括 Qwen 3.6(以本地性能见长)、MiMo 和 DeepSeek,它们在较低成本下提供了具有竞争力的结果。相反,部分模型(如 Mistral 和 Google 的“agy”工具)因安全护栏限制或能力不足而失败,一些所谓的“前沿”模型表现也出奇地差。
* **智能体局限性**:使用全功能 AI 智能体并不能提高漏洞挖掘的成功率,反而往往增加了成本和干扰。
* **方法论**:尽管目前的基准测试数据尚不丰富,但研究表明,虽然现有公开模型通常不及 Mythos,但通过改进工具和提示词,它们仍有成功的潜力。
最终,作者认为,尽管 Mythos 可能在性能上处于领先地位,但其能力的“秘密”很可能源于专用工具,而非模型本身具备不可逾越的优势。
**YOLO26** 于 2026 年 1 月发布,是一个多功能、多任务计算机视觉模型系列,旨在执行目标检测、分割、姿态估计、分类和旋转目标检测任务。该模型提供从 Nano 到 Extra Large 共五个版本,专门针对边缘部署和低功耗硬件进行了优化。
关键架构改进包括:
* **降低延迟:** 通过消除非极大值抑制(NMS),模型实现了更快的端到端推理。
* **硬件兼容性:** 移除分布式焦点损失(DFL)模块,确保对多种导出格式(如 TFLite、TensorRT、ONNX)提供更广泛的支持。
* **性能提升:** 新的损失函数(ProgLoss 和 STAL)改善了对小目标的识别能力,而受大语言模型突破性进展启发的创新 MuSGD 优化器,使训练过程更稳定、更高效。
* **效率:** 与前几代产品相比,该模型显著提升了 CPU 推理速度,使其在机器人和物联网的实时应用中表现极佳。
尽管 RF-DETR、LW-DETR 和 D-FINE 等替代方案在基准测试中具有竞争力,但 YOLO26 因其精简的边缘优先设计脱颖而出,为在资源受限环境下追求高精度与计算效率平衡的开发者提供了稳健的解决方案。