## Hypura:在Mac上运行大型语言模型 Hypura 是一款专为 Apple Silicon Mac 设计的 LLM 推理调度器,它能够通过智能地将张量分配到 GPU、RAM 和 NVMe 存储器中,执行超过可用 RAM 的模型。它克服了在使用像 llama.cpp 这样的工具尝试加载过大的模型(例如在 32GB Mac Mini 上加载 31GB Mixtral)时遇到的崩溃问题。 Hypura 会分析硬件并优化张量放置,优先将经常访问的数据(范数、嵌入)放在 GPU 上。对于 Mixtral 等混合专家 (MoE) 模型,它仅从 NVMe 流式传输活跃的专家权重,将 I/O 减少 75%,并以 99.5% 的命中率使用神经元缓存。像 Llama 70B 这样的密集模型,也为 FFN 层采用了类似的流式传输方法。 该系统会根据可用内存自动调整预取和池大小,无需手动调整。Hypura 对于能够放入内存的模型没有额外开销,并为更大的模型提供可用的体验,甚至可以达到 Mixtral 2.2 tok/s 和 Llama 70B 0.3 tok/s 的速度。它通过 Cargo 提供,并包含一个与 Ollama 兼容的 API,以便与 OpenClaw 等工具轻松集成。重要的是,Hypura 主要*读取* SSD,从而最大限度地减少磨损。