谷歌发布Gemini 3，声称领先GPT-5.1和Claude Sonnet 4.5的基准测试

2025年11月19日由 alex 发表 4577 0

Google-Gemini

谷歌于周二宣布推出 Gemini 3，并将其称为在通用人工智能（AGI）发展道路上迈出的又一大步。

谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）在一份声明中表示：“它在推理能力方面达到了最先进水平，旨在理解深度和细微差别 —— 无论是捕捉创意中的微妙线索，还是拆解复杂问题的重叠层面。”

谷歌表示，正将 Gemini 3 整合到包括搜索引擎（Search）在内的主要产品中。目前，该模型已在搜索引擎的 AI 模式中上线，具备更强大的推理能力和全新的动态体验。

此外，用户可在 Gemini 应用中使用该模型；开发者也能通过 AI Studio、Vertex AI，以及谷歌全新推出的、以智能体（agent）为核心的开发平台 Google Antigravity 获取其服务。

谷歌深度思维（Google DeepMind）首席执行官德米斯・哈萨比斯（Demis Hassabis），以及该公司首席技术官兼首席人工智能架构师德雷・卡武库奥卢（Koray Kavukcuoglu）在联合声明中宣布，Gemini 3 Pro 版本现已开放预览。

他们表示：“我们正开启 Gemini 3 时代。” 同时指出，该模型正逐步整合到搜索引擎、Workspace 办公套件、Gemini 应用及各开发者平台中。

谷歌称，在 LMArena、Humanity’s Last Exam（人类终极测试）、GPQA Diamond 和 MathArena Apex 等主要人工智能基准测试中，Gemini 3 Pro 的性能均优于 Gemini 2.5 Pro、OpenAI 的 GPT-5.1 以及 Anthropic 的 Claude Sonnet 4.5。

该公司着重强调了 Gemini 3 在多模态能力方面的提升，并列举数据：在 MMMU-Pro（多模态多任务理解基准测试进阶版）中得分 81%，在 Video-MMMU（视频多模态多任务理解基准测试）中得分 87.6%。此外，该模型在 SimpleQA Verified（事实准确性评估基准）中取得 72.1% 的成绩，该指标主要用于衡量模型的事实准确性。

此次发布还推出了 Gemini 3 Deep Think（深度思考模式）—— 一款经过优化的推理模式。谷歌表示，该模式在 Humanity’s Last Exam（人类终极测试）中得分 41%，在 GPQA Diamond（通用问题解答评估钻石级基准）中得分 93.8%，在支持代码执行的 ARC-AGI-2（人工智能推理与常识评估基准 2.0 版）中得分 45.1%。谷歌称：“‘深度思考’模式进一步突破了智能的边界。”

谷歌指出，凭借更广泛的多模态输入支持、更长的上下文处理能力以及全新的规划功能，用户可将 Gemini 3 应用于多种任务，例如分析研究论文、翻译手写的家庭食谱、生成数据可视化内容，或是评估运动表现。在搜索引擎中，AI 模式如今支持生成式用户界面（UI）元素与交互式模拟功能。

面向开发者，谷歌推出了 Google Antigravity（谷歌反重力平台）—— 这是一款围绕 Gemini 3 构建、以智能体（Agent）为核心的开发平台。谷歌表示，Antigravity 平台能让智能体 “自主规划并执行复杂的端到端软件任务”，且可直接访问编辑器、终端与浏览器。此外，Gemini 3 还与多款工具实现集成，包括 Google AI Studio（谷歌人工智能工作室）、Vertex AI（顶点人工智能平台）、Gemini CLI（命令行界面）、Cursor（代码编辑器）、GitHub（代码托管平台）、JetBrains（软件开发工具集）以及 Replit（在线编程平台）。

该模型的 “长周期规划能力” 被列为另一项重要改进。谷歌称，Gemini 3 Pro 在 Vending-Bench 2（自动售货机场景基准测试 2.0 版）排行榜中位居榜首，能够在模拟一年的运营周期内保持稳定的决策能力。

订阅 Google AI Ultra（谷歌人工智能高级服务）的用户，可通过 Gemini 应用中的 Gemini Agent（Gemini 智能体）功能使用上述智能体相关能力。

谷歌还强调了其在安全测试方面的扩展工作，表示 Gemini 3 已完成迄今为止最全面的评估，评估方包括 Apollo、Vaultis、Dreadnode 等外部合作机构。

谷歌称：“Gemini 3 是我们目前最安全的模型。” 同时指出，该模型的 “谄媚性” 显著降低，对提示词注入攻击的抵抗能力有所提升，且针对滥用行为的防护机制也更为完善。

文章来源：https://analyticsindiamag.com/ai-news-updates/google-launches-gemini-3-claims-benchmark-lead-over-gpt-5-1-and-claude-sonnet-4-5/

标签：

谷歌 gpt claude

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Poe的AI应用程序现支持跨AI模型的群聊功能

下一篇 Google Antigravity 是一款为 Gemini 3 打造的“代理优先”编码工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体