Hugging Face发布了mmBERT,这是一种全新的多语言编码器,经过在1833种语言中超过3万亿个标记的训练。该模型基于ModernBERT架构,是第一个在多语言理解任务中显著超越XLM-R这一长期基准的模型。
mmBERT采用渐进式训练计划,而不是一次性训练所有语言。它从60种高资源语言开始,逐步扩展到110种,最终涵盖所有1833种语言。该模型将其掩码比例从30%减少到5%,并调整采样分布以更好地代表小语种。
这种“渐进式语言添加”方法被证明对于覆盖范围而不导致过拟合至关重要。例如,法罗语和提格利尼亚语——仅在最后的1000亿标记衰减阶段引入——由于这一策略仍显示出显著的性能提升。
社区成员对这种平衡策略感到好奇。企业AI从业者Yasir Altaf询问:
如何确保低资源语言不会在1833种语言阶段被淹没?是否有每种语言的“最低可行信号”阈值?此外,我们如何确信模型不会被前50种语言主导,即使技术上“训练”了1833种语言?
对此,Hugging Face工程师兼Sentence Transformers维护者Tom Aarsen解释道:
这是通过评估一些仅在最后1000亿标记中引入的低资源语言来检查的,例如提格利尼亚语和法罗语。当这些语言被纳入最后阶段时,他们观察到了显著的改进。
mmBERT基于ModernBERT架构,继承了其快速、内存高效的骨干,配备Flash Attention 2和无填充序列处理,支持8192个标记的上下文。
虽然基础模型只有110M个非嵌入参数,但它仍然可以与更大的多语言模型竞争。一个较小的140M参数变体也可用于较轻的工作负载。
mmBERT遵循ModernBERT设计,具有22层编码器,支持最长8192个标记的序列。基础模型有110M个非嵌入参数(总计307M),而一个较小的140M变体可用于提高效率。
一个独特的元素是使用模型合并。团队没有依赖单一训练模型,而是通过TIES合并结合了三个变体——以英语为主、110种语言和所有语言——这有助于在各个领域保持性能。
在评估中,mmBERT始终优于早期的多语言编码器。在GLUE上,它匹配了仅英语基准,尽管其训练数据中不到四分之一是英语。在XTREME上,它在跨语言任务如XNLI和TyDiQA中显示出明显的提升,同时在结构化预测上保持竞争力。在检索方面,mmBERT在MTEBv2多语言基准上创下新高,甚至在英语轨道上与仅英语模型持平。
mmBERT展示了扩展多语言编码器不必以牺牲效率为代价。通过平衡覆盖范围与针对性改进,它为检索、分类和跨语言任务设定了新的基准。