谷歌推出Gemini Deep Think AI：一种能够并行测试多种想法的推理模型

2025年08月04日由佚名发表 725 0

谷歌DeepMind正在推出Gemini 2.5 Deep Think，公司称这是其最先进的AI推理模型，能够通过同时探索和考虑多种想法来回答问题，然后从中选择最佳答案。

谷歌每月250美元的Ultra订阅用户将从周五开始在Gemini应用中获得Gemini 2.5 Deep Think的使用权限。

Gemini 2.5 Deep Think首次亮相于2025年5月的谷歌I/O大会，这是谷歌首个公开可用的多代理模型。这些系统生成多个AI代理以并行处理一个问题，虽然使用的计算资源显著多于单个代理，但通常能得到更优的答案。

谷歌使用Gemini 2.5 Deep Think的一个变体在今年的国际数学奥林匹克竞赛（IMO）中获得金牌。

除了Gemini 2.5 Deep Think，公司表示还将向一组选定的数学家和学者发布其在IMO中使用的模型。谷歌表示，这个AI模型“需要数小时来推理”，而不像大多数面向消费者的AI模型那样只需几秒或几分钟。公司希望IMO模型能增强研究工作，并希望获得关于如何改进多代理系统以用于学术用途的反馈。

谷歌指出，Gemini 2.5 Deep Think模型相比I/O大会上宣布的版本有了显著改进。公司还声称开发了“新颖的强化学习技术”以鼓励Gemini 2.5 Deep Think更好地利用其推理路径。

“Deep Think可以帮助人们解决需要创造力、战略规划和逐步改进的问题，”谷歌在与TechCrunch分享的一篇博客文章中说道。

公司表示，Gemini 2.5 Deep Think在人类最后考试（HLE）中达到了最先进的表现——这是一项测量AI在数学、人文学科和科学领域回答数千个众包问题能力的挑战性测试。谷歌声称其模型在HLE中得分34.8%（不使用工具），相比之下，xAI的Grok 4得分25.4%，OpenAI的o3得分20.3%。

谷歌还表示，Gemini 2.5 Deep Think在LiveCodeBench6上表现优于OpenAI、xAI和Anthropic的AI模型，这是一项具有挑战性的竞争性编码任务测试。谷歌的模型得分87.6%，而Grok 4得分79%，OpenAI的o3得分72%。

Gemini 2.5 Deep Think能够自动与代码执行和谷歌搜索等工具协作，公司表示其能够生成比传统AI模型“更长的响应”。

在谷歌的测试中，该模型生成的网页开发任务比其他AI模型更详细且更具美感。公司声称该模型可以帮助研究人员，并“可能加速发现的路径”。

似乎几家领先的AI实验室正在趋向于多代理方法。

埃隆·马斯克的xAI最近也发布了自己的多代理系统，Grok 4 Heavy，据称在多个基准测试中取得了行业领先的表现。OpenAI研究员Noam Brown在一个播客中表示，公司用于在今年国际数学奥林匹克竞赛（IMO）中获得金牌的未发布AI模型也是一个多代理系统。同时，Anthropic的研究代理，生成详尽的研究简报，也由多代理系统驱动。

尽管表现强劲，但多代理系统的服务成本似乎比传统AI模型更高。这意味着科技公司可能会将这些系统限制在其最昂贵的订阅计划中，xAI和现在的谷歌都选择了这样做。

在接下来的几周内，谷歌表示计划通过Gemini API与一组选定的测试者分享Gemini 2.5 Deep Think。公司表示希望更好地了解开发者和企业可能如何使用其多代理系统。

文章来源：https://techcrunch.com/2025/08/01/google-rolls-out-gemini-deep-think-ai-a-reasoning-model-that-tests-multiple-ideas-in-parallel/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Manus 本周将推顶级订阅：月费 199 美元，含 “广泛研究” 智能体

下一篇苹果可能正在构建自己的人工智能“答案引擎”

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体