Teuken-7B-Base 和 Teuken-7B-Instruct:迈向欧洲大型语言模型
Teuken-7B-Base and Teuken-7B-Instruct: Towards European LLMs

原始链接: https://arxiv.org/abs/2410.03730

Mehdi Ali和另外38位作者推出了Teuken-7B-Base和Teuken-7B-Instruct两个多语言大型语言模型(LLM),专门设计用于支持欧盟所有24种官方语言。为了解决许多现有LLM以英语为中心的偏差问题,这两个模型使用定制的多语言分词器,在一个大约60%是非英语数据的 数据集上进行训练。论文详细介绍了模型的开发过程,重点介绍了数据构成、分词器优化和训练方法。在ARC、HellaSwag、MMLU和TruthfulQA等基准的欧洲语言版本上的性能评估证明了其具有竞争力的多语言能力。这项研究旨在为欧洲语言构建更具包容性和代表性的语言技术。更新版本(v2)于2024年10月15日修订,规模显著大于初始版本(v1)。

Hacker News 上的一篇帖子讨论了 Teuken-7B-Base 和 Teuken-7B-Instruct 这两个旨在改进欧洲语言大型语言模型的模型。用户们正在争论它们的有效性,并将它们与 Llama 3.1、Mistral 和 Qwen 2.5 等现有模型进行比较。 一位用户指出,在土耳其语与英语之间的翻译任务中,Llama 3.1 表现更好。这引发了关于语言模型在不同语言上的表现差异是由于语言本身的特性还是训练数据造成的讨论。一些用户指出,模型通常在英语上的知识储备更多。 几位用户提到了其他相关的项目,例如 EuroLLM,并称赞其拉脱维亚语的能力。其他人则对 EU-ARC(这些模型的基准测试)的方法论进行了辩论,并质疑仅仅关注欧盟语言是否足够。文章本身的语法错误也受到了讨论,以及大型语言模型比人类写作更规范的更广泛趋势。人们还比较了欧洲和美国的大型语言模型领域,指出了尽管 Mistral AI 和 Stable Diffusion 等欧洲公司做出了显著贡献,但在欧洲筹集资金和吸引人才方面仍然面临挑战。

原文

View a PDF of the paper titled Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs, by Mehdi Ali and 38 other authors

View PDF HTML (experimental)
Abstract:We present two multilingual LLMs designed to embrace Europe's linguistic diversity by supporting all 24 official languages of the European Union. Trained on a dataset comprising around 60% non-English data and utilizing a custom multilingual tokenizer, our models address the limitations of existing LLMs that predominantly focus on English or a few high-resource languages. We detail the models' development principles, i.e., data composition, tokenizer optimization, and training methodologies. The models demonstrate competitive performance across multilingual benchmarks, as evidenced by their performance on European versions of ARC, HellaSwag, MMLU, and TruthfulQA.
From: Mehdi Ali [view email]
[v1] Mon, 30 Sep 2024 16:05:38 UTC (391 KB)
[v2] Tue, 15 Oct 2024 17:09:40 UTC (4,358 KB)
联系我们 contact @ memedata.com