Ai2发布开源视觉AI代理,能控制网页浏览器

2026年03月25日 由 佚名 发表 171 0


艾伦人工智能研究所,这是一家位于西雅图的知名非营利研究机构,致力于推动人工智能模型和系统的发展。今天,他们推出了一款新的开源AI代理,可以代表用户控制网页浏览器并自动化执行任务。


这个网页代理代表了视觉语言模型的下一步发展,这些模型将大型语言模型的能力从理解图像和文本并回答问题,扩展到能够采取实际行动。


今天,公司宣布推出MolmoWeb,这是基于Molmo 2多模态模型家族的产品,提供两种规模:40亿和80亿参数。它将免费提供,包括权重、训练数据和代码(即将推出),以及用于构建它的评估工具。设计上,它可以在本地或云端自托管。


为了执行任务,AI代理必须理解来自人类的指令和可见的内容。这包括用自然语言编写的一组任务和一个实时网页。AI模型通过一系列截图观察网页,然后通过界面直接与其交互,预测在点击、在文本字段中输入字符或上下滚动等操作时会发生什么。


公司表示,与其他开源网页代理不同,MolmoWeb的训练没有依赖于压缩的专有视觉代理。数据来自合成生成的仅文本可访问性代理和人类实际网页浏览活动的使用。


代理界面支持导航URL、点击屏幕坐标、在字段中输入文本、滚动页面、打开和切换浏览器标签页,并向用户发送消息。


所有这些操作都直接在浏览器内进行,点击位置在执行时以像素坐标表示。


Ai2表示,代理的设计旨在防止在底层网页代码或HTML动态变化时出现故障。例如,一些网页为了保护自己,会混淆或隐藏其操作方式。有些使用专门的JavaScript引擎来检测机器人、阻止广告拦截器、显示动画、跟踪用户等。


使用底层代码还可能消耗大量的代币,这是AI操作的基本货币。视觉界面更接近于人类与网页界面的交互方式:人们看到的就是他们将如何接近页面。这意味着更容易调试模型为何会做出某些行为。


尽管体积紧凑,Ai2表示MolmoWeb在开源网页代理中实现了最先进的结果。在流行的评估套件中测试时,8B模型在WebVoyager上得分78.2%,在DeepShop上得分42.3%,在TailBench上得分49.5%。它在所有四个基准上都超过了领先的开源模型,如Fara-7B。


公司表示,MolmoWeb还可以超越依赖注释和结构化页面数据的GPT-4构建的代理。Ai2表示,这一结果尤其重要,因为这些模型可以“深入”网页代码,并且参数规模大得多——如同将老鼠与大象相比。


更多对开源浏览器AI代理的访问也将帮助研究人员和爱好者开发自己的网页自动化。


封闭源代码的大型语言模型提供商已经涉足市场,推出能够自动化网页任务的代理浏览器,包括OpenAI Group PBC和Perplexity AI Inc.,分别推出了ChatGPT Atlas和Perplexity Comet。


文章来源:https://siliconangle.com/2026/03/24/ai2-releases-open-source-visual-ai-agent-can-take-control-web-browsers/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消