## 灵魂玩家:Commodore 64 上的 Transformer 研究人员成功地在经典的 Commodore 64 计算机上实现了一个 2 层、仅解码器的 Transformer——这种架构驱动着像 ChatGPT 这样现代的大型语言模型。这款“灵魂玩家”拥有大约 25,000 个参数,利用真实的 multi-head 注意力机制、softmax 和 RMSNorm,全部用 6502 汇编语言手工编码。 该模型可以容纳在标准软盘上,以大约每 token 60 秒的速度生成文本。一项关键创新是 softmax 函数的归一化修复,这使得在 C64 有限的处理能力范围内能够实现有意义的注意力权重。 用户可以通过输入小写文本与模型交互,并接收到响应,尽管速度很慢,每个 token 都会伴随一个音效。该项目包括用于使用简单的文本语料库训练自定义模型以及构建可运行的磁盘镜像的工具。尽管受到其小尺寸和词汇量的限制,“灵魂玩家”证明了 Transformer 架构即使在严重受限的硬件上也是根本可行的。
## 超越组织架构图:理解工作*真正*的完成方式
项目经常停滞,并非因为缺乏技能或努力,而是因为组织未能识别管理执行的“真实”地图——那些超越正式组织架构图的地图。这些隐藏的地图决定了工作*实际*的流程,并揭示了功能障碍的关键见解。
五个关键地图是:**专业知识**(人们*实际*咨询的对象)、**决策**(拥有实际权力的人,通常与正式批准不同)、**记忆**(流程背后的未明说历史与逻辑——当人们离开时很容易丢失)、**连接**(在团队之间架起桥梁的个人,携带重要的背景信息)以及它们*之间*的相互作用。
当这些地图与组织架构图一致时,一切运行顺利。脱节会产生摩擦、重复错误和误解。识别这些地图需要观察——注意反应、推诿以及谁影响决策——而不仅仅是依赖于职位描述。
对于管理者来说,识别和记录这些非正式结构至关重要。过度依赖少数关键人物将多个地图联系在一起会造成脆弱性。使这些地图可见可以暴露隐藏的优势、劣势,以及关于权力动态和能力的潜在令人不安的事实,但对于可持续的成功至关重要。
Lucebox 是一个专注于通过手动优化软件以适应特定硬件,从而优化大型语言模型 (LLM) 推理的项目,而不是依赖通用框架。他们的目标是使强大的 AI 在本地更易于访问,优先考虑隐私、成本效益和避免厂商锁定。
目前,Lucebox 发布了两个项目:**Megakernel Qwen3.5 0.8B**,适用于 RTX 3090 GPU,性能与苹果最新的芯片相匹配,吞吐量提高 2 倍(1.87 tok/J);以及同样适用于 RTX 3090 的 **DFlash DDtree Qwen3.5 27B**,使用推测解码和定制 CUDA 引擎,速度比自回归解码快高达 5.46 倍(207 tok/s)。
这两个项目都提供了详细的基准测试、说明文档,并以 MIT 许可证在 GitHub 上提供。它们利用了内核融合、推测解码和量化等技术,针对目标硬件进行优化,以最大限度地提高性能。未来的工作包括对 Ryzen AI MAX+ 处理器和异构 CPU/GPU 系统的优化。