## 机器学习基准测试的意外成功 机器学习的进步很大程度上依赖于一个简单的过程:将数据分为训练集和测试集,然后根据模型在未见过的测试数据上的表现进行排名。这些“基准测试”推动了重大进展——从ImageNet推动的深度学习崛起,到目前以语言模型得分(如MMLU)衡量的AI竞赛,尽管一直受到批评。 批评者认为基准测试鼓励“作弊”,优先考虑指标优化而非真正的智能,并且可能延续数据集中嵌入的偏见。他们指出古德哈特法则——当一个指标成为目标时,它就停止成为一个好的指标——以及过度拟合特定数据集的风险,从而创建在测试中表现良好但在现实世界应用中失败的模型。 然而,尽管存在这些有效的问题,基准测试*确实*有效。本书认为,这种成功并非归功于健全的统计原理(通常被忽略),而是归功于机器学习社区的社会动态。具体来说,仅仅关注识别表现最佳的模型就能提供令人惊讶的强大保证。 本书探讨了这种悖论,考察了从ImageNet时代的稳定、策划的基准测试到大型语言模型带来的挑战,这些模型是在庞大、不受控制的数据集上训练的。它强调了模型*排名*相对于绝对分数的重要性,并提出了未来更具科学依据的基准测试方法。
## Ubuntu Snapd 漏洞摘要 (CVE-2026-3888)
Qualys 威胁研究团队发现了一个高危的本地权限提升 (LPE) 漏洞,影响 Ubuntu Desktop 24.04 及更高版本的默认安装。该漏洞源于 `snap-confine` 和 `systemd-tmpfiles` 之间的交互,允许本地攻击者获得完全 root 权限。
利用该漏洞需要特定的时间窗口 – 等待 `systemd-tmpfiles` 清理一个临时目录 (`/tmp/.snap`),然后用恶意内容重新创建它。`snap-confine` 在初始化 snap 沙箱时,会将这些文件以 root 身份挂载,从而实现代码执行。虽然复杂 (CVSS 分数 7.8),但成功利用将完全破坏系统。
**受影响的系统应立即更新至:**
* Ubuntu 24.04 LTS: snapd 2.73+ubuntu24.04.2 或更高版本
* Ubuntu 25.10 LTS: snapd 2.73+ubuntu25.10.1 或更高版本
* Ubuntu 26.04 LTS (开发版): snapd 2.74.1+ubuntu26.04.1 或更高版本
* 上游 snapd: 2.75 或更高版本
此外,在 Ubuntu 25.10 发布之前,已识别并修复了 `uutils coreutils` 包中的一个单独漏洞,防止潜在的 root 级别文件删除。Qualys 提供 QID (386810) 用于检测,以及 CyberSecurity Asset Management 和 VMDR 等工具用于漏洞识别和修复。
作者已经独家使用Mac触控板工作14年,包括繁重的设计任务,认为其精度优于传统鼠标——这是一种普遍的体验,因为许多Windows触控板质量较差。macOS的“三指拖动”功能是舒适长时间使用的关键。
该功能允许通过简单地在触控板上移动三个手指来拖动对象,所需的力度比传统的点击并拖动更小。结合“轻点点击”,它实现了无需物理点击即可使用触控板。
虽然以前在标准设置指南中有介绍,但此选项现在隐藏在**系统设置 > 辅助功能 > 指针控制 > 触控板选项 > 拖动方式**中,必须手动启用为“三指拖动”。作者强调了Mac触控板持续的卓越性能及其对工作流程的影响。
## AI 编程与赌博类比
这篇文章反思了与AI一起编程的出人意料的缺乏满足感,尽管它似乎有很多好处。作者认为,依赖AI代码生成感觉不像真正的编程——一个深思熟虑的问题解决和详细实施过程——而更像**赌博**。
AI允许进行微不足道的代码更改,减轻了评估工作量和研究的认知负担。虽然它*看起来*能产生结果,但这些结果往往只是表面上正确,需要大量的清理工作。这种不断“拉动老虎机拉杆”以获得期望结果的行为令人上瘾,反映了赌博的机制,并促成了工作游戏化的趋势。
作者认为最有害的方面是失去了编程中“滋养灵魂”的部分:理解、适应和巧妙地整合现有代码的过程。相反,工作已经集中在修复AI的不足之处。尽管作者承认自己有责任更深入地参与代码,但他表达了对这种转变的基本不满,即使作为一名*应该*从开发速度加快中受益的设计师。