谷歌已把 “计算机操作” 能力直接集成进 Gemini 3.5 Flash。该模型如今可以自主查看、理解电脑、浏览器与移动设备界面并进行交互。此前,这项能力仅在独立版本的 Gemini 2.5 模型中提供。搭配函数调用、谷歌搜索、地图等现有工具,开发者现在能够搭建可跨浏览器、移动端和桌面端运行的智能代理程序,用来完成软件测试、办公自动化等任务。
在 OSWorld 基准测试中,Gemini 3.5 Flash 取得 78.4 分,超越 Gemini 3 Flash(65.1 分)与 GPT-5.4 mini(72.1 分)。GPT-5.5 以 78.7 分小幅领先,Anthropic 的 Opus 4.8 以 83.4 分位居榜首。Sonnet 4.6 同样拿到 78.4 分,Gemini 3.1 Pro 得分为 76.2 分。
为防范提示词注入攻击,谷歌采用对抗训练技术,并提供两项可选的企业级安全防护机制。第一项机制要求用户对敏感操作、不可撤销操作进行确认;第二项一旦检测到间接提示词注入,就会自动终止任务。谷歌同时建议使用沙箱环境、人工监督以及严格的权限管控,更多细则可查阅官方最佳实践文档。
该功能现已通过 Gemini API 以及 Gemini 企业智能代理平台对外开放,同时还提供 Browserbase 演示案例与 GitHub 参考代码。
