Running a One Trillion-Parameter LLM Locally on AMD Ryzen AI Max+ Cluster

原始链接: https://www.amd.com/en/developer/resources/technical-articles/2026/how-to-run-a-one-trillion-parameter-llm-locally-an-amd.html

一篇 Hacker News 帖子详细介绍了使用 AMD Ryzen AI Max+ 集群在本地运行一万亿参数的大型语言模型 (LLM)。虽然令人印象深刻，但性能明显慢于 ChatGPT 等服务。用户报告，对于 8192 个 token 的提示，首次生成 token 的时间为 1.5 分钟，然后 token 生成速度为每秒 8.3 个 – 远低于 ChatGPT 的亚秒级初始响应和每秒 50 个 token 的速度。该设置成本约为 10,000 美元，但当前的内存和 SSD 价格可能会增加这一成本。该帖子还指出上下文窗口大小的限制，模型在 8192 和 16384 个 token 的提示下会耗尽内存。一位评论者质疑仅使用 5Gig 以太网，建议更快的 USB-C/Thunderbolt 连接更可取。尽管存在性能缺陷，但这一成就被视为在本地运行大型 LLM 的积极进展。