GNU 项目的历史揭示了资本主义制度下生产资料与消费品之间的根本区别。虽然该项目的目标是为终端用户提供一套完整的自由系统,但它最终只作为“生产基础设施”获得了成功——即企业用于创造其他产品的软件。 资本主义企业支持 GNU 工具链,是因为它降低了它们的生产成本,从而增加了潜在利润。通过 Cygnus Solutions 等实体,商业利益方提供了维护和开发 GNU 工具所需的物质资源和工程劳动力。这种合作并非意识形态上的矛盾,而是一种务实的协同:企业乐于从免费的生产资料中获益,但它们仍有动力去垄断和控制消费品(如艺术和文化),以榨取利润。 因此,自由软件的成功并非“自由文化”的可行蓝图。由于资本主义依赖于对消费品流通的控制,在当前的经济体系下,文化无法实现真正的自由。该项目的历史证明,在资本主义制度下,只有作为生产手段的软件才能可靠地实现自由;更广泛的文化解放需要社会发生更根本性的变革。
该项目通过将分词(tokenization)建模为整数线性规划(ILP)问题,探索了大型语言模型(LLM)最优分词器的计算方法。虽然从理论上讲,寻找最优分词是难以处理的,但作者证明了该问题可以在实践中通过“割平面法”(一种借鉴自旅行商问题求解器的策略)来解决。
通过在连续线性规划中迭代添加有效的约束条件,作者成功为特定数据集(如《傲慢与偏见》)实现了可证明的最优分词器。借助 Codex 辅助的自动化方法,作者确定了“循环约束”是收紧边界并达到最优解的高效手段。
尽管在技术上取得了成功,但作者指出了三个实际局限性:
1. 现有方法(如字节对编码)已达到最优水平的 99% 以内。
2. 训练数据的最优性并不能保证在测试数据上具有更好的泛化能力。
3. 低效问题只需通过增加词汇表大小即可缓解。
总之,虽然这些研究结果在学术上很有趣,并展示了人工智能辅助研究的潜力,但该方法在计算上仍然非常昂贵。未来的进展取决于能否克服求解速度缓慢的问题,并将该方法扩展到预分词(词级约束)之外的领域。
作者分享了他们从零开始构建一个“复古大模型”(Vintage LLM)的历程。该模型拥有 3.4 亿参数,采用 Llama 架构,且仅使用 1900 年前出版的英文文本进行训练。出于好奇心,该项目涉及创建自定义数据流水线、设计专用分词器,以及在 Vast.ai 等云平台上进行高算力需求模型训练。
这一过程凸显了数据质量的关键性;作者开发了严格的过滤技术,包括 ZLIB 压缩比、香农熵和自定义字符评分,以剔除低质量的 OCR 伪影。尽管付出了巨大努力,作者指出该模型仅是一个“业余”项目,目前的功能类似于一个随机文本生成器。虽然它能写出维多利亚风格的散文,但缺乏深层的对话连贯性,在基础算术方面也存在困难,这说明了在没有海量高质量指令数据集的情况下训练小型模型所固有的难度。
作者强调,该项目主要是一次学习实践,证明了通过亲手构建大模型可以深入理解其内部机理。代码和模型已在 GitHub 和 HuggingFace 上开源。作者计划通过进一步微调来提升模型的对话能力,并将此项目视为一次对人工智能底层机制充满趣味且极具挑战的探索。