大型语言模型架构图库
LLM Architecture Gallery

原始链接: https://sebastianraschka.com/llm-architecture-gallery/

流行的230B模型,选择经典架构而非更新的混合注意力方案。总规模230B,活跃规模10B。日期:2026-02-12。解码器类型:稀疏MoE注意力,带有QK-Norm的GQA。关键细节:刻意避免滑动窗口或线性注意力混合架构,同时保持10B活跃路径。

## LLM 架构图库总结 Sebastian Raschka 最近在 Hacker News 上分享的 LLM 架构图库,以视觉方式记录了大型语言模型 (LLM) 架构的演变。尽管在过去七年里(自 GPT-2 以来),LLM 的*能力*取得了显著进步,但核心架构创新却出乎意料地有限。大多数改进源于模型规模的扩大,以及像 RLVR 这样的*训练方法*的进步。 该图库强调,现代 LLM 在很大程度上类似于 GPT-2——堆叠的注意力层和前馈层——而变体则侧重于效率。最近的创新,如混合专家 (MoE)、线性注意力(如 Qwen3.5 中所示)和 RoPE,旨在提高 GPU 利用率和扩展性。 讨论要点包括架构复杂性可能变得不可持续,类似于生物系统,以及转向优化推理成本而非基本能力提升。Neural Network Zoo 和相关项目等资源也被分享,以及可缩放的图表版本和 GitHub 仓库的链接。一些用户指出该网站由于高流量而出现过载。
相关文章

原文

Popular 230B coder that opts for a classic architecture instead of the newer hybrid-attention ideas.

Scale
230B total, 10B active

Date
2026-02-12

Decoder type
Sparse MoE

Attention
GQA with QK-Norm

Key detail
Deliberately avoids sliding-window or linear-attention hybrids while keeping a 10B active path.

联系我们 contact @ memedata.com