[提交于2026年1月8日 (v1),最后修改于2026年1月14日 (此版本,v2)] 查看论文PDF:大型语言模型推理硬件的挑战与研究方向,作者:马晓宇和David Patterson 查看PDF 摘要:大型语言模型 (LLM) 推理很困难。底层Transformer模型的自回归解码阶段使得LLM推理与训练根本不同。由于最近的人工智能趋势,主要挑战在于内存和互连,而非计算。为了应对这些挑战,我们强调了四个架构研究机会:具有HBM类似带宽的10倍内存容量的高带宽闪存;用于高内存带宽的近内存处理和3D内存-逻辑堆叠;以及用于加速通信的低延迟互连。虽然我们的重点是数据中心人工智能,我们也回顾了它们在移动设备上的适用性。 来自:马晓宇 [查看邮箱] [v1] 2026年1月8日 星期四 15:52:11 UTC (832 KB) [v2] 2026年1月14日 星期三 20:37:46 UTC (983 KB)
## Tiny Tapeout实验航天器:AI加速器与JTAG调试
该项目旨在在短短两周内,使用GlobalFoundries 180nm技术通过Tiny Tapeout实验航天器,设计一个小型的2x2矩阵-矩阵乘法柱状阵列(AI加速器的核心组件)*和*强大的片上调试基础设施——JTAG TAP。该项目最初主要是一个调试基础设施练习,柱状阵列被添加为被测设计。
利用现有的流程(Tiny Tapeout/Librelane/OpenROAD)和个人自动化脚本对于满足截止日期至关重要。该设计优先考虑柱状阵列中的计算-内存比效率,并包含定制的Booth Radix-4乘法器。一个关键特性是用于探测内部寄存器的定制JTAG指令(USER_REG),并通过OpenOCD进行仿真验证。
尽管存在限制——引脚数量、时钟频率和缺乏SRAM——该设计已成功完成并提交制造。作者强调了迭代设计的重要性以及开源工具在实现快速原型设计方面的力量。该项目是迈向独立ASIC设计最终目标的一步,通过参与Tiny Tapeout等项目来积累技能和经验。芯片目前正在制造中,如果成功,将可供购买。