
Mistral AI 正在推出一系列新的开放、多语言和多模态模型,称为 Mistral 3。产品阵容涵盖从用于边缘部署的紧凑型选项到大型专家混合模型。
据Mistral AI介绍,该系列包含三款“Ministral”型号,参数数分别为30亿、80亿和140亿,以及旗舰“Mistral Large 3”。旗舰机采用了稀疏的专家混合架构,并基于约3000块Nvidia H200 GPU进行训练。Mistral列出了410亿个活跃参数和6750亿个总参数。
Mistral Large 3 完全开源,采用 Apache-2.0 许可证。公司表示,其目标是在通用语言任务上与其他领先的开放模型匹敌,同时处理图像。在LMArena排行榜上,它目前在开源非推理模型中排名第二,在开源推理模型中排名第六。在已发布的基准测试中,其性能与其他开放模型如Qwen和Deepseek相当。不过,Deepseek 昨天发布了 V3.2,该更新在多项测试中明显比前一版本有明显提升。

新边缘模型对效率的意义
较小的“Ministral 3”变体面向本地和边缘使用。三种尺寸——3B、8B和14B——均有基础版、“Instruct”和“Reasoning”版本,均具备图像理解功能。这些型号也以Apache-2.0许可证发布。
Mistral表示,指令调优模型的性能与类似开源选项相当,但产生的代币数量远少于其他方案。推理版本是为更深入的分析任务而设计的。据公司称,14B型号在AIME-25基准测试中达到了85%。
这些模型可通过Mistral AI Studio、Hugging Face以及包括Amazon Bedrock、Azure Foundry、IBM WatsonX和Together AI在内的云平台获取。计划支持Nvidia NIM和AWS SageMaker。Mistral表示,在开发新型号时,他们与英伟达密切合作。
