## Qwen3.5-397B-A17B 在 MacBook Pro 上的 24 小时成果
研究人员成功地在配备 48GB 内存的 MacBook Pro 上运行了大型 Qwen3.5-397B-A17B(3970 亿参数)混合专家模型,实现了 4.4+ token/秒的运行速度,并输出了高质量的结果,包括工具调用。 这仅用纯 C/Metal 推理引擎在 24 小时内完成,绕过了 Python 和传统框架。
209GB 的模型从 SSD 流式传输,利用定制的 Metal 计算流水线并“信任操作系统”进行缓存(达到 71% 的命中率)。 关键优化包括 FMA 优化的去量化内核(+12% 速度)和手工调整的 Metal 着色器。 虽然 2 位量化提供了更快的速度,但它损害了 JSON/工具调用的可靠性,因此 4 位成为首选配置。
该项目优先考虑高效的内存管理,仅使用约 6GB 的内存并按需流式传输专家权重。 重要的是,团队发现重叠的 SSD DMA 和 GPU 计算*降低*了性能,原因是内存控制器争用,因此选择串行流水线。 代码总计约 8200 行,已公开可用,展示了低级别优化的卓越成就。
## 25年的鸡蛋数据:AI驱动的深度分析
作者出于长期以来的爱好,成功使用AI编码代理(Codex和Claude)从11,345张收据中提取了25年的鸡蛋购买数据。这个为期14天的项目,花费约1,591美元的token,展示了结合使用专业AI模型的强大力量。
最初的挑战包括破译褪色的热敏打印以及解决旧扫描件的“白色阴影”问题,最终通过Meta的SAM3进行图像分割解决。项目进行中,Tesseract OCR被PaddleOCR-VL取代,以获得更清晰的文本提取。结构化数据提取最初尝试使用正则表达式,但效果不佳,随后由Codex处理,利用其巨大的token容量。
一个定制的LLM分类器,经过手工标注数据的训练,在识别鸡蛋购买方面实现了99%以上的准确率。该项目强调了AI辅助数据清洗的迭代性质——每个识别出的错误都允许代理提高整个数据集的准确性。最终,作者记录了购买了8,604个鸡蛋的数据,总价为1,972美元,证明即使是看似简单的数据,在合适的工具和方法下也能揭示出有趣的信息。
## 减小 Haskell 二进制文件大小:链接与代码折叠
Haskell 二进制文件由于传递依赖性可能出乎意料地很大。本文探讨了在链接时减小它们大小的技术,并以 `pandoc` 项目为例进行演示。
提出了两种主要策略。首先,使用 GHC 选项 `-split-sections` 和 `--gc-sections`(通过 `-fuse-ld=lld` 使用 `lld` 作为链接器)可以将二进制文件大小减少 27%,从而实现死代码移除。
更具实验性的是,使用 `lld` 的*相同代码折叠* (ICF) 可以进一步缩小二进制文件(在本例中减少了另外 23%)。ICF 识别并合并功能上等效的代码段。虽然有效,但 ICF 并非完全安全,可能会导致依赖于特定函数地址的 C 代码出现问题。
分析表明 Haskell 项目内部存在大量代码重复,表明在编译过程中存在优化的潜力——缓存编译单元以避免重复工作。尝试了 `bloaty` 和 `kcov` 等工具进行进一步分析,但证明与 Haskell 代码不兼容。
作者还指出 ICF 与调试工具(如 `-fdistinct-constructor-tables`)之间可能存在交互,需要仔细考虑以保留调试信息。