谷歌将电脑操控能力直接内置到 Gemini 3.5 Flash 模型中,让模型能够查看并操作电脑屏幕

2026年06月26日 由 alex 发表 4369 0

谷歌已把 “计算机操作” 能力直接集成进 Gemini 3.5 Flash。该模型如今可以自主查看、理解电脑、浏览器与移动设备界面并进行交互。此前,这项能力仅在独立版本的 Gemini 2.5 模型中提供。搭配函数调用、谷歌搜索、地图等现有工具,开发者现在能够搭建可跨浏览器、移动端和桌面端运行的智能代理程序,用来完成软件测试、办公自动化等任务。




在 OSWorld 基准测试中,Gemini 3.5 Flash 取得 78.4 分,超越 Gemini 3 Flash(65.1 分)与 GPT-5.4 mini(72.1 分)。GPT-5.5 以 78.7 分小幅领先,Anthropic 的 Opus 4.8 以 83.4 分位居榜首。Sonnet 4.6 同样拿到 78.4 分,Gemini 3.1 Pro 得分为 76.2 分。


为防范提示词注入攻击,谷歌采用对抗训练技术,并提供两项可选的企业级安全防护机制。第一项机制要求用户对敏感操作、不可撤销操作进行确认;第二项一旦检测到间接提示词注入,就会自动终止任务。谷歌同时建议使用沙箱环境、人工监督以及严格的权限管控,更多细则可查阅官方最佳实践文档。


该功能现已通过 Gemini API 以及 Gemini 企业智能代理平台对外开放,同时还提供 Browserbase 演示案例与 GitHub 参考代码。

文章来源:https://the-decoder.com/google-bakes-computer-control-directly-into-gemini-3-5-flash-letting-the-model-see-and-operate-your-screen/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消