腾讯控股有限公司今日宣布开源一系列全新的语言模型,名为混元-MT系列,专为翻译任务进行了优化。
这家中国科技公司表示,这些算法在一个流行的人工智能翻译基准测试中显著优于谷歌翻译。
混元-MT系列包括四个模型。两个旗舰模型,混元-MT-7B和混元-MT-Chimera-7B,均拥有70亿参数。此外,还有两个经过量化或压缩的版本,以在牺牲部分输出质量的情况下降低内存使用。
腾讯使用了四个不同的数据集进行模型的初始训练。前两个数据集包含用33种语言编写的文本片段,但不包括任何翻译执行信息。另两个数据集则包含数百万个所谓的对照记录,每个记录都包含一个文本片段及其翻译。
根据腾讯的说法,训练工作流程不仅为混元-MT模型提供了翻译能力,还赋予了大量的通用知识。公司使用一个名为MMLU-Pro的通用知识基准测试对算法进行了测试。混元-MT以显著优势超越了拥有80亿参数的Llama-3-8B-Base模型。
在初始训练后,腾讯进行了强化学习阶段。在这一阶段,公司为混元-MT模型提供了一系列训练任务,并对其响应质量进行反馈。模型利用这些反馈来提高输出质量。
试错学习过程由一个定制的AI模型监督。该模型根据翻译与原文的语义相似性对混元-MT生成的翻译进行评分。它还考虑了其他因素,包括算法处理特定领域术语的能力。
混元-MT系列的第一个AI,混元-MT-7B,基于标准的语言模型架构。混元-MT-Chimera-7B则采用了一种更复杂的处理方法,称为集成学习。
类似于专家混合模型,集成学习算法由多个神经网络组成。但与专家混合模型只使用一个神经网络处理用户提示不同,集成学习使用所有神经网络。它生成多个提示答案,然后将它们组合成一个更高质量的响应。
腾讯使用一个名为WMT25的AI翻译基准测试将混元-MT与谷歌翻译进行比较。根据公司说法,其模型系列在测试中评估的31种语言对中有30种表现更好。在某些情况下,混元-MT的得分高出65%。
该模型系列还优于其他几家AI提供商的算法。腾讯表示,混元-MT在WMT25基准测试中的大多数语言对上得分高于GPT-4.1和Anthropic PBC的Claude 4 Sonnet。