Meta推出Muse Spark多模态推理模型

2026年04月09日 由 佚名 发表 279 0


Meta于周三推出了Muse Spark,这款产品由Meta超级智能实验室——在首席AI官Alexandr Wang的领导下,九个月前组建的团队开发的。Meta以140亿美元收购了Scale AI。目前已在meta.ai和Meta AI应用程序上线,未来几周将推广到Facebook、Instagram和WhatsApp。


这不仅仅是另一个聊天机器人升级或Llama的新版本。Muse Spark是本地多模态的——它从根本上处理图像、文本和语音,而不是将视觉功能附加到现有的文本模型上。它配备了视觉思维链、工具使用支持,以及Meta称之为“沉思模式”的功能:一种并行运行多个AI代理以解决更复杂问题的设置。这是Meta对谷歌的Gemini深度思考和OpenAI的GPT Pro扩展思维模式的回应。


“Muse Spark是我们扩展阶梯的第一步,也是我们AI努力从头开始全面改革的第一个产品,”Meta在一份官方公告中写道。“为了支持进一步扩展,我们正在整个堆栈中进行战略投资——从研究和模型训练到基础设施,包括Hyperion数据中心。”


公司与超过1000名医生合作,为Muse Spark的医学推理策划训练数据。在HealthBench Hard——一个开放式健康查询基准测试中,结果显著:Muse Spark得分42.8,而GPT 5.4得分40.1,Gemini 3.1 Pro仅得分20.6。这不是一个微小的差异。

在代理搜索(DeepSearchQA)中,Muse Spark也以74.8领先,击败了Gemini(69.7)和GPT 5.4(73.6)。在CharXiv推理——从科学论文中理解图形方面,它得分86.4,是比较中最高的模型。


整体基准测试显示Gemini 3.1 Pro在大多数类别中仍然领先。差距在ARC AGI 2,抽象推理难题基准测试中最为明显:Gemini得分76.5,而Muse Spark得分42.5。


在编码(LiveCodeBench Pro)方面,Gemini的82.9超过了Meta的80.0。在MMMU Pro——多模态理解方面,Gemini得分83.9,而Meta得分80.4。Meta自己的博客承认在长时间代理系统和编码工作流程中存在当前性能差距。



此次发布中还包含一个显著的战略转变。Muse Spark是一个封闭模型——其架构和权重不会公开。这与Llama的开放AI圈子声誉形成鲜明对比。在今年早些时候Llama 4反响平平后,Meta似乎决定以不同的方式书写下一个篇章。


公司表示希望未来版本的Muse能够开源,但目前代码仍保留在Meta内部。科技巨头的股票在周三宣布后上涨近9%,并以6.5%的涨幅收盘,价格为612.42美元。


“沉思模式”使用并行代理编排来提高模型的上限。在这种配置下,Muse Spark在人类最后考试中达到58%,在前沿科学研究中达到38%——这使其与最强版本的Gemini和GPT竞争,而不是它们的标准版本。


Meta还推出了一个购物助手,可以比较产品并直接链接到购买,并计划在未来几周将Muse Spark引入Facebook、Instagram和WhatsApp——遵循自Llama 3以来实施的相同策略,将其展示在超过35亿用户面前。一个私人API预览将向选定的开发者开放。


该模型在九个月内构建,内部代号为Avocado,Meta声称其新的预训练堆栈可以使用超过10倍更少的计算资源达到与Llama 4 Maverick相同的能力水平。


Muse Spark在内部被描述为Muse家族的“一个小而快”的第一步。一个更强大的版本已经在开发中。


文章来源:https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消