为了提升 macOS 上的编程智能体性能,作者通过 `llama.cpp` 结合 Metal 加速,对本地环境中的 **Gemma 4 26B**(GGUF 格式)模型进行了优化。通过集成**多 Token 预测(MTP)草稿模型**,生成速度从 58.2 token/s 提升至 72.2 token/s(提升 24%),表现优于原生 MLX 实现。
**关键组成:**
* **引擎:** `llama.cpp`(构建时支持 Metal/Accelerate)。
* **模型:** Gemma 4 26B-A4B(Q4 量化)搭配 Q8 MTP 草稿头。
* **优化:** 在 M1 Max 上,使用 `--spec-draft-n-max 3` 可达到最佳速度。
* **功能:** 集成的多模态投影仪支持截图分析,兼容 OpenAI 的 `llama-server` 可实现与“Pi”编程智能体的无缝衔接。
作者指出,虽然 Qwen 3.6 35B 等替代模型在编程逻辑上更出色,但 Gemma 4 + MTP 的配置在日常智能体工作流中仍是更快速、更具响应性的选择。文中还提供了详细说明,包括用于自动化的 Shell 脚本包装器和 Pi 的配置方案,以实现开箱即用的本地开发体验。