Hugging Face推出mmBERT:支持1800多种语言的多语言编码器

2025年09月30日 由 佚名 发表 28 0

屏幕截图2025-09-30093826


Hugging Face发布了mmBERT,这是一种全新的多语言编码器,经过在1833种语言中超过3万亿个标记的训练。该模型基于ModernBERT架构,是第一个在多语言理解任务中显著超越XLM-R这一长期基准的模型。


mmBERT采用渐进式训练计划,而不是一次性训练所有语言。它从60种高资源语言开始,逐步扩展到110种,最终涵盖所有1833种语言。该模型将其掩码比例从30%减少到5%,并调整采样分布以更好地代表小语种。

这种“渐进式语言添加”方法被证明对于覆盖范围而不导致过拟合至关重要。例如,法罗语和提格利尼亚语——仅在最后的1000亿标记衰减阶段引入——由于这一策略仍显示出显著的性能提升。

社区成员对这种平衡策略感到好奇。企业AI从业者Yasir Altaf询问:


如何确保低资源语言不会在1833种语言阶段被淹没?是否有每种语言的“最低可行信号”阈值?此外,我们如何确信模型不会被前50种语言主导,即使技术上“训练”了1833种语言?


对此,Hugging Face工程师兼Sentence Transformers维护者Tom Aarsen解释道:


这是通过评估一些仅在最后1000亿标记中引入的低资源语言来检查的,例如提格利尼亚语和法罗语。当这些语言被纳入最后阶段时,他们观察到了显著的改进。


mmBERT基于ModernBERT架构,继承了其快速、内存高效的骨干,配备Flash Attention 2和无填充序列处理,支持8192个标记的上下文。

虽然基础模型只有110M个非嵌入参数,但它仍然可以与更大的多语言模型竞争。一个较小的140M参数变体也可用于较轻的工作负载。

mmBERT遵循ModernBERT设计,具有22层编码器,支持最长8192个标记的序列。基础模型有110M个非嵌入参数(总计307M),而一个较小的140M变体可用于提高效率。

一个独特的元素是使用模型合并。团队没有依赖单一训练模型,而是通过TIES合并结合了三个变体——以英语为主、110种语言和所有语言——这有助于在各个领域保持性能。

在评估中,mmBERT始终优于早期的多语言编码器。在GLUE上,它匹配了仅英语基准,尽管其训练数据中不到四分之一是英语。在XTREME上,它在跨语言任务如XNLI和TyDiQA中显示出明显的提升,同时在结构化预测上保持竞争力。在检索方面,mmBERT在MTEBv2多语言基准上创下新高,甚至在英语轨道上与仅英语模型持平。

mmBERT展示了扩展多语言编码器不必以牺牲效率为代价。通过平衡覆盖范围与针对性改进,它为检索、分类和跨语言任务设定了新的基准。


文章来源:https://www.infoq.com/news/2025/09/mmbert/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消