大型语言模型架构图库

大型语言模型架构图库
LLM Architecture Gallery

原始链接: https://sebastianraschka.com/llm-architecture-gallery/

流行的230B模型，选择经典架构而非更新的混合注意力方案。总规模230B，活跃规模10B。日期：2026-02-12。解码器类型：稀疏MoE注意力，带有QK-Norm的GQA。关键细节：刻意避免滑动窗口或线性注意力混合架构，同时保持10B活跃路径。

## LLM 架构图库总结 Sebastian Raschka 最近在 Hacker News 上分享的 LLM 架构图库，以视觉方式记录了大型语言模型 (LLM) 架构的演变。尽管在过去七年里（自 GPT-2 以来），LLM 的*能力*取得了显著进步，但核心架构创新却出乎意料地有限。大多数改进源于模型规模的扩大，以及像 RLVR 这样的*训练方法*的进步。该图库强调，现代 LLM 在很大程度上类似于 GPT-2——堆叠的注意力层和前馈层——而变体则侧重于效率。最近的创新，如混合专家 (MoE)、线性注意力（如 Qwen3.5 中所示）和 RoPE，旨在提高 GPU 利用率和扩展性。讨论要点包括架构复杂性可能变得不可持续，类似于生物系统，以及转向优化推理成本而非基本能力提升。Neural Network Zoo 和相关项目等资源也被分享，以及可缩放的图表版本和 GitHub 仓库的链接。一些用户指出该网站由于高流量而出现过载。

Popular 230B coder that opts for a classic architecture instead of the newer hybrid-attention ideas.

Scale: 230B total, 10B active
Date: 2026-02-12
Decoder type: Sparse MoE
Attention: GQA with QK-Norm
Key detail: Deliberately avoids sliding-window or linear-attention hybrids while keeping a 10B active path.

大型语言模型架构图库 LLM Architecture Gallery

大型语言模型架构图库
LLM Architecture Gallery