谷歌将电脑操控能力直接内置到 Gemini 3.5 Flash 模型中，让模型能够查看并操作电脑屏幕

2026年06月26日由 alex 发表 4369 0

谷歌已把 “计算机操作” 能力直接集成进 Gemini 3.5 Flash。该模型如今可以自主查看、理解电脑、浏览器与移动设备界面并进行交互。此前，这项能力仅在独立版本的 Gemini 2.5 模型中提供。搭配函数调用、谷歌搜索、地图等现有工具，开发者现在能够搭建可跨浏览器、移动端和桌面端运行的智能代理程序，用来完成软件测试、办公自动化等任务。

在 OSWorld 基准测试中，Gemini 3.5 Flash 取得 78.4 分，超越 Gemini 3 Flash（65.1 分）与 GPT-5.4 mini（72.1 分）。GPT-5.5 以 78.7 分小幅领先，Anthropic 的 Opus 4.8 以 83.4 分位居榜首。Sonnet 4.6 同样拿到 78.4 分，Gemini 3.1 Pro 得分为 76.2 分。

为防范提示词注入攻击，谷歌采用对抗训练技术，并提供两项可选的企业级安全防护机制。第一项机制要求用户对敏感操作、不可撤销操作进行确认；第二项一旦检测到间接提示词注入，就会自动终止任务。谷歌同时建议使用沙箱环境、人工监督以及严格的权限管控，更多细则可查阅官方最佳实践文档。

该功能现已通过 Gemini API 以及 Gemini 企业智能代理平台对外开放，同时还提供 Browserbase 演示案例与 GitHub 参考代码。

文章来源：https://the-decoder.com/google-bakes-computer-control-directly-into-gemini-3-5-flash-letting-the-model-see-and-operate-your-screen/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇亚马逊计划在印度增加130亿美元投资，聚焦人工智能和数据中心

下一篇高通因收购Modular及上调业绩预期股价上涨14%

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术