Mixtral 8x7B:稀疏专家混合语言模型
Mixtral 8x7B: A sparse Mixture of Experts language model

原始链接: https://arxiv.org/abs/2401.04088

开幕标题:“专家的混合” 简介:本文介绍了 Mixtral of Experts,它是现有 Mistral 语言模型的变体。 Mixtral的新颖之处在于其结构,每一层由八个专家前馈块组成,而不是一个大块,并且这些专家通过路由器网络组合在一起。 Mixtral 中的每个代币都可以访问 470 亿个参数,而在推理过程中仅使用 130 亿个活动参数。 与 Llama 2 和 GPT-3.5 等类似模型相比,Mixtral 在多个评估指标上明显优于或等于它们。 混合架构使用 32 kilotkens 的上下文长度进行训练,与 Llama 2 70b 相比,在处理数学计算、编码场景和多语言任务时具有卓越的性能。 此外,研究人员开发了一种改进的指令模型,名为 Mixtral 8x7b - 指令,它超越了之前最先进的模型,如 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70b - 聊天模型。 有关 arXiv:2401.04088 的所有相关信息,包括参考文献、相关论文、地点、机构、主题、作者和 mathjax 禁用选项均可用。 ArXiv 按照开放、社区、质量和尊重用户个人数据的原则运营。 要接收更新和新闻通讯,感兴趣的各方可以单击订阅按钮,而查询或请求应使用官方联系方式。 最后,操作状态页面提供对服务器性能的持续监控。

总体而言,主要要点是: 1. 所提出的架构使用稀疏的专家混合体,其中每层包括八个经过训练以擅长特定数据或任务的迷你神经网络,并且路由网络有选择地激活每个输入令牌的两个专家层。 2. 推理过程中,模型主要依赖选定的两个专家层,大幅减少主动参数,提高效率和效果。 3. 与之前的 LANGM 模型(例如 LLaMA 70B 和 GPT-3.5)相比,Mixtral 在各种评估指标(包括数学和编码精度)方面取得了显着改进。 4. 与Gemini Pro相比,微调后的模型达到了state-of-the-art的结果。 专家机制的主要优点是它允许每个专家专注于语言建模的特定方面,从而在专门的数据集或主题上获得更好的性能。 通过有选择地利用每个输入标记的两个专家层,最终模型设法将活动参数保留在与大型预训练模型的微调相当的水平上,同时保持提炼的专家知识的大小优势。 总体而言,Mixtral 在提高法学硕士的能力方面向前迈出了有希望的一步。
相关文章

原文

[Submitted on 8 Jan 2024]

Download a PDF of the paper titled Mixtral of Experts, by Albert Q. Jiang and 25 other authors

Download PDF
Abstract:We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the difference that each layer is composed of 8 feedforward blocks (i.e. experts). For every token, at each layer, a router network selects two experts to process the current state and combine their outputs. Even though each token only sees two experts, the selected experts can be different at each timestep. As a result, each token has access to 47B parameters, but only uses 13B active parameters during inference. Mixtral was trained with a context size of 32k tokens and it outperforms or matches Llama 2 70B and GPT-3.5 across all evaluated benchmarks. In particular, Mixtral vastly outperforms Llama 2 70B on mathematics, code generation, and multilingual benchmarks. We also provide a model fine-tuned to follow instructions, Mixtral 8x7B - Instruct, that surpasses GPT-3.5 Turbo, Claude-2.1, Gemini Pro, and Llama 2 70B - chat model on human benchmarks. Both the base and instruct models are released under the Apache 2.0 license.
From: Devendra Singh Chaplot [view email]
[v1] Mon, 8 Jan 2024 18:47:34 UTC (2,811 KB)
联系我们 contact @ memedata.com