发表于《ACM图形学汇刊》(SIGGRAPH 2026)的论文《高斯点溅射》(Gaussian Point Splatting)介绍了一种新颖的随机渲染技术,旨在将高斯溅射扩展至包含数亿个元素的大规模场景。
作者摒弃了传统的溅射方式,转而从高斯分布中采样像素大小的不透明点,并使用64位原子操作将其渲染到帧缓冲区。该方法利用并行编程原语,将工作负载高效地分配到数百万个GPU线程中。由于线程独立运行,研究人员开发了一种数学形式化方法,以确保不透明度分布的准确性,在保持与原始高斯溅射视觉保真度一致的同时,仅引入了微小的噪声和走样差异。
为了进一步提升性能,该方法结合了层级视锥体剔除和遮挡剔除技术,实现了对以往计算成本过高的大规模复杂场景的实时渲染。该技术为新视角合成提供了一种高度可扩展的替代方案,针对现代硬件优化了高密度高斯环境。
为了实现高性能计算的普及,我开发了一个 Linux 内核模块,能够让消费级 AMD 迷你主机上普通的 USB4/雷电(Thunderbolt)接口充当 InfiniBand 设备。这种实验性的 RDMA-over-USB4 实现方案,让普通家庭用户无需昂贵的企业级网络硬件,即可运行分布式 AI 工作负载,如张量并行推理和 FSDP 训练。
通过绕过标准网络协议栈,该方案在 Strix Halo 迷你主机上取得了令人瞩目的性能表现:
* **吞吐量:** 双向原始 RDMA 吞吐量约 95 Gb/s(远超标准 2.5 GbE 约 2.3 Gb/s 的极限)。
* **延迟:** 单向延迟约 7 微秒,显著优于传统的软件方案。
* **效率:** 将 Gemma 3 27B 模型 LoRA FSDP 步骤的训练时间从以太网连接下的 1,359 秒缩短至 126 秒。
该项目成功实现了在消费级硬件上进行多节点 AI 训练。但需要注意的是,这是一个包含 AI 生成代码的实验性研究项目。它仅供测试使用,不提供任何担保,且涉及不稳定的内核模块,请谨慎使用。