Hugging Face推出mmBERT：支持1800多种语言的多语言编码器

2025年09月30日由佚名发表 28 0

屏幕截图2025-09-30093826

Hugging Face发布了mmBERT，这是一种全新的多语言编码器，经过在1833种语言中超过3万亿个标记的训练。该模型基于ModernBERT架构，是第一个在多语言理解任务中显著超越XLM-R这一长期基准的模型。

mmBERT采用渐进式训练计划，而不是一次性训练所有语言。它从60种高资源语言开始，逐步扩展到110种，最终涵盖所有1833种语言。该模型将其掩码比例从30%减少到5%，并调整采样分布以更好地代表小语种。

这种“渐进式语言添加”方法被证明对于覆盖范围而不导致过拟合至关重要。例如，法罗语和提格利尼亚语——仅在最后的1000亿标记衰减阶段引入——由于这一策略仍显示出显著的性能提升。

社区成员对这种平衡策略感到好奇。企业AI从业者Yasir Altaf询问：

如何确保低资源语言不会在1833种语言阶段被淹没？是否有每种语言的“最低可行信号”阈值？此外，我们如何确信模型不会被前50种语言主导，即使技术上“训练”了1833种语言？

对此，Hugging Face工程师兼Sentence Transformers维护者Tom Aarsen解释道：

这是通过评估一些仅在最后1000亿标记中引入的低资源语言来检查的，例如提格利尼亚语和法罗语。当这些语言被纳入最后阶段时，他们观察到了显著的改进。

mmBERT基于ModernBERT架构，继承了其快速、内存高效的骨干，配备Flash Attention 2和无填充序列处理，支持8192个标记的上下文。

虽然基础模型只有110M个非嵌入参数，但它仍然可以与更大的多语言模型竞争。一个较小的140M参数变体也可用于较轻的工作负载。

mmBERT遵循ModernBERT设计，具有22层编码器，支持最长8192个标记的序列。基础模型有110M个非嵌入参数（总计307M），而一个较小的140M变体可用于提高效率。

一个独特的元素是使用模型合并。团队没有依赖单一训练模型，而是通过TIES合并结合了三个变体——以英语为主、110种语言和所有语言——这有助于在各个领域保持性能。

在评估中，mmBERT始终优于早期的多语言编码器。在GLUE上，它匹配了仅英语基准，尽管其训练数据中不到四分之一是英语。在XTREME上，它在跨语言任务如XNLI和TyDiQA中显示出明显的提升，同时在结构化预测上保持竞争力。在检索方面，mmBERT在MTEBv2多语言基准上创下新高，甚至在英语轨道上与仅英语模型持平。

mmBERT展示了扩展多语言编码器不必以牺牲效率为代价。通过平衡覆盖范围与针对性改进，它为检索、分类和跨语言任务设定了新的基准。

文章来源：https://www.infoq.com/news/2025/09/mmbert/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇优必选再揽 3000 万元人形机器人大单，累计订单金额逼近 4.3 亿元

下一篇 Anthropic的Claude Sonnet 4.5可自主编程超过30小时

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来