
谷歌于周二宣布推出 Gemini 3,并将其称为在通用人工智能(AGI)发展道路上迈出的又一大步。
谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)在一份声明中表示:“它在推理能力方面达到了最先进水平,旨在理解深度和细微差别 —— 无论是捕捉创意中的微妙线索,还是拆解复杂问题的重叠层面。”
谷歌表示,正将 Gemini 3 整合到包括搜索引擎(Search)在内的主要产品中。目前,该模型已在搜索引擎的 AI 模式中上线,具备更强大的推理能力和全新的动态体验。
此外,用户可在 Gemini 应用中使用该模型;开发者也能通过 AI Studio、Vertex AI,以及谷歌全新推出的、以智能体(agent)为核心的开发平台 Google Antigravity 获取其服务。
谷歌深度思维(Google DeepMind)首席执行官德米斯・哈萨比斯(Demis Hassabis),以及该公司首席技术官兼首席人工智能架构师德雷・卡武库奥卢(Koray Kavukcuoglu)在联合声明中宣布,Gemini 3 Pro 版本现已开放预览。
他们表示:“我们正开启 Gemini 3 时代。” 同时指出,该模型正逐步整合到搜索引擎、Workspace 办公套件、Gemini 应用及各开发者平台中。
谷歌称,在 LMArena、Humanity’s Last Exam(人类终极测试)、GPQA Diamond 和 MathArena Apex 等主要人工智能基准测试中,Gemini 3 Pro 的性能均优于 Gemini 2.5 Pro、OpenAI 的 GPT-5.1 以及 Anthropic 的 Claude Sonnet 4.5。

该公司着重强调了 Gemini 3 在多模态能力方面的提升,并列举数据:在 MMMU-Pro(多模态多任务理解基准测试进阶版)中得分 81%,在 Video-MMMU(视频多模态多任务理解基准测试)中得分 87.6%。此外,该模型在 SimpleQA Verified(事实准确性评估基准)中取得 72.1% 的成绩,该指标主要用于衡量模型的事实准确性。
此次发布还推出了 Gemini 3 Deep Think(深度思考模式)—— 一款经过优化的推理模式。谷歌表示,该模式在 Humanity’s Last Exam(人类终极测试)中得分 41%,在 GPQA Diamond(通用问题解答评估钻石级基准)中得分 93.8%,在支持代码执行的 ARC-AGI-2(人工智能推理与常识评估基准 2.0 版)中得分 45.1%。谷歌称:“‘深度思考’模式进一步突破了智能的边界。”
谷歌指出,凭借更广泛的多模态输入支持、更长的上下文处理能力以及全新的规划功能,用户可将 Gemini 3 应用于多种任务,例如分析研究论文、翻译手写的家庭食谱、生成数据可视化内容,或是评估运动表现。在搜索引擎中,AI 模式如今支持生成式用户界面(UI)元素与交互式模拟功能。
面向开发者,谷歌推出了 Google Antigravity(谷歌反重力平台)—— 这是一款围绕 Gemini 3 构建、以智能体(Agent)为核心的开发平台。谷歌表示,Antigravity 平台能让智能体 “自主规划并执行复杂的端到端软件任务”,且可直接访问编辑器、终端与浏览器。此外,Gemini 3 还与多款工具实现集成,包括 Google AI Studio(谷歌人工智能工作室)、Vertex AI(顶点人工智能平台)、Gemini CLI(命令行界面)、Cursor(代码编辑器)、GitHub(代码托管平台)、JetBrains(软件开发工具集)以及 Replit(在线编程平台)。
该模型的 “长周期规划能力” 被列为另一项重要改进。谷歌称,Gemini 3 Pro 在 Vending-Bench 2(自动售货机场景基准测试 2.0 版)排行榜中位居榜首,能够在模拟一年的运营周期内保持稳定的决策能力。
订阅 Google AI Ultra(谷歌人工智能高级服务)的用户,可通过 Gemini 应用中的 Gemini Agent(Gemini 智能体)功能使用上述智能体相关能力。
谷歌还强调了其在安全测试方面的扩展工作,表示 Gemini 3 已完成迄今为止最全面的评估,评估方包括 Apollo、Vaultis、Dreadnode 等外部合作机构。
谷歌称:“Gemini 3 是我们目前最安全的模型。” 同时指出,该模型的 “谄媚性” 显著降低,对提示词注入攻击的抵抗能力有所提升,且针对滥用行为的防护机制也更为完善。
