从基础开始的量化
Quantization from the Ground Up

原始链接: https://ngrok.com/blog/quantization

## 量化:缩小LLM以供本地使用 大型语言模型 (LLM),如 Qwen-3-Coder-Next,拥有 800 亿参数(需要 159.4GB 内存),资源密集型。虽然前沿模型拥有超过一万亿参数,但**量化**提供了一种解决方案:在最小化精度损失的同时,减小模型尺寸并提高速度。 量化通过压缩模型参数的精度来工作——这些核心数字驱动着其计算。LLM 将这些参数存储为 32 位浮点数,但可以使用较低的精度(如 16 位、8 位甚至 4 位)运行。这减少了内存占用并加快了处理速度。 该过程涉及将值从较大范围映射到较小范围,通常通过四舍五入。**对称量化**以零为中心,而**非对称量化**则适应数据分布以提高效率。诸如分块量化之类的先进技术可以减轻由异常参数值引起的问题。 在 Qwen3.5 9B 模型上的测试表明,从 16 位到 8 位量化几乎不会造成质量损失。4 位量化会导致准确性略有下降(约 10%),而 2 位量化会严重降低性能。基准测试和直接交互证实了这些发现。 最终,量化允许在消费级硬件上运行强大的 LLM,为本地、离线 AI 应用程序打开了可能性。虽然存在诸如量化感知训练和参数修剪之类的其他方法,但量化提供了一种强大且易于访问的方式来 democratize 对强大语言模型的访问。

## 量化技术与易于获取的AI:摘要 这次Hacker News讨论围绕一篇详细的文章,解释了**量化**技术,该技术用于减小大型语言模型(LLM)的尺寸并提高其速度,使其能够在消费级硬件上运行。量化通过用较小的整数替换高精度浮点数来实现,并在需要时实时“反量化”。 对话中明确,现代GPU越来越多地原生支持较低精度数学(如Bfloat16和FP8),但旧GPU可能需要转换回32位浮点数,这可能会抵消内存节省。然而,总体效果通常是更快的性能*和*更低的内存使用量。 用户强调了量化的巨大影响:一个需要54GB VRAM的27B参数模型,通过量化可以在24GB GPU上运行。这“民主化”了对强大AI的访问。讨论还涉及对更激进的量化方法的持续研究,以及通过诸如层卸载等技术,更大模型能够在消费级硬件上运行的可能性。 最终,文章和随后的评论强调量化是一项关键的进展,它能够实现本地LLM的使用,并可能挑战拥有巨大计算资源的大公司的主导地位。
相关文章

原文
联系我们 contact @ memedata.com