谷歌DeepMind正在推出Gemini 2.5 Deep Think,公司称这是其最先进的AI推理模型,能够通过同时探索和考虑多种想法来回答问题,然后从中选择最佳答案。
谷歌每月250美元的Ultra订阅用户将从周五开始在Gemini应用中获得Gemini 2.5 Deep Think的使用权限。
Gemini 2.5 Deep Think首次亮相于2025年5月的谷歌I/O大会,这是谷歌首个公开可用的多代理模型。这些系统生成多个AI代理以并行处理一个问题,虽然使用的计算资源显著多于单个代理,但通常能得到更优的答案。
谷歌使用Gemini 2.5 Deep Think的一个变体在今年的国际数学奥林匹克竞赛(IMO)中获得金牌。
除了Gemini 2.5 Deep Think,公司表示还将向一组选定的数学家和学者发布其在IMO中使用的模型。谷歌表示,这个AI模型“需要数小时来推理”,而不像大多数面向消费者的AI模型那样只需几秒或几分钟。公司希望IMO模型能增强研究工作,并希望获得关于如何改进多代理系统以用于学术用途的反馈。
谷歌指出,Gemini 2.5 Deep Think模型相比I/O大会上宣布的版本有了显著改进。公司还声称开发了“新颖的强化学习技术”以鼓励Gemini 2.5 Deep Think更好地利用其推理路径。
“Deep Think可以帮助人们解决需要创造力、战略规划和逐步改进的问题,”谷歌在与TechCrunch分享的一篇博客文章中说道。
公司表示,Gemini 2.5 Deep Think在人类最后考试(HLE)中达到了最先进的表现——这是一项测量AI在数学、人文学科和科学领域回答数千个众包问题能力的挑战性测试。谷歌声称其模型在HLE中得分34.8%(不使用工具),相比之下,xAI的Grok 4得分25.4%,OpenAI的o3得分20.3%。
谷歌还表示,Gemini 2.5 Deep Think在LiveCodeBench6上表现优于OpenAI、xAI和Anthropic的AI模型,这是一项具有挑战性的竞争性编码任务测试。谷歌的模型得分87.6%,而Grok 4得分79%,OpenAI的o3得分72%。
Gemini 2.5 Deep Think能够自动与代码执行和谷歌搜索等工具协作,公司表示其能够生成比传统AI模型“更长的响应”。
在谷歌的测试中,该模型生成的网页开发任务比其他AI模型更详细且更具美感。公司声称该模型可以帮助研究人员,并“可能加速发现的路径”。
似乎几家领先的AI实验室正在趋向于多代理方法。
埃隆·马斯克的xAI最近也发布了自己的多代理系统,Grok 4 Heavy,据称在多个基准测试中取得了行业领先的表现。OpenAI研究员Noam Brown在一个播客中表示,公司用于在今年国际数学奥林匹克竞赛(IMO)中获得金牌的未发布AI模型也是一个多代理系统。同时,Anthropic的研究代理,生成详尽的研究简报,也由多代理系统驱动。
尽管表现强劲,但多代理系统的服务成本似乎比传统AI模型更高。这意味着科技公司可能会将这些系统限制在其最昂贵的订阅计划中,xAI和现在的谷歌都选择了这样做。
在接下来的几周内,谷歌表示计划通过Gemini API与一组选定的测试者分享Gemini 2.5 Deep Think。公司表示希望更好地了解开发者和企业可能如何使用其多代理系统。