大卫·帕特森:LLM推理硬件的挑战与研究方向
David Patterson: Challenges and Research Directions for LLM Inference Hardware

原始链接: https://arxiv.org/abs/2601.05047

[提交于2026年1月8日 (v1),最后修改于2026年1月14日 (此版本,v2)] 查看论文PDF:大型语言模型推理硬件的挑战与研究方向,作者:马晓宇和David Patterson 查看PDF 摘要:大型语言模型 (LLM) 推理很困难。底层Transformer模型的自回归解码阶段使得LLM推理与训练根本不同。由于最近的人工智能趋势,主要挑战在于内存和互连,而非计算。为了应对这些挑战,我们强调了四个架构研究机会:具有HBM类似带宽的10倍内存容量的高带宽闪存;用于高内存带宽的近内存处理和3D内存-逻辑堆叠;以及用于加速通信的低延迟互连。虽然我们的重点是数据中心人工智能,我们也回顾了它们在移动设备上的适用性。 来自:马晓宇 [查看邮箱] [v1] 2026年1月8日 星期四 15:52:11 UTC (832 KB) [v2] 2026年1月14日 星期三 20:37:46 UTC (983 KB)

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 David Patterson: LLM 推理硬件的挑战与研究方向 (arxiv.org) 7 分,来自 transpute 1 小时前 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

View a PDF of the paper titled Challenges and Research Directions for Large Language Model Inference Hardware, by Xiaoyu Ma and David Patterson

View PDF
Abstract:Large Language Model (LLM) inference is hard. The autoregressive Decode phase of the underlying Transformer model makes LLM inference fundamentally different from training. Exacerbated by recent AI trends, the primary challenges are memory and interconnect rather than compute. To address these challenges, we highlight four architecture research opportunities: High Bandwidth Flash for 10X memory capacity with HBM-like bandwidth; Processing-Near-Memory and 3D memory-logic stacking for high memory bandwidth; and low-latency interconnect to speedup communication. While our focus is datacenter AI, we also review their applicability for mobile devices.
From: Xiaoyu Ma [view email]
[v1] Thu, 8 Jan 2026 15:52:11 UTC (832 KB)
[v2] Wed, 14 Jan 2026 20:37:46 UTC (983 KB)
联系我们 contact @ memedata.com