Orca探索AI代理的人工引导未来

2025年06月09日 由 佚名 发表 14 0

加州大学圣地亚哥分校的研究人员发布了Orca,这是一个开源系统,展示了大型语言模型(LLM)如何在网络上协助用户——不是通过控制,而是通过引导互动。在经过同行评审的白皮书中,研究团队展示了在评估中任务速度和准确性的显著提升——这为人机协作代理在实际工作流程中的潜力提供了早期证据。


Orca旨在帮助用户从网络中提取有意义的见解,充当决策的“副驾驶”/助手,而不是自主的浏览器代理。


该系统提供了一系列功能,包括总结长网页、从非结构化内容中提取结构化数据、跟踪浏览会话中的变化以及比较多个来源的声明。它可以根据命令进行搜索、滚动、点击和与网站互动,使用户能够在保持对过程控制的同时委派重复或上下文丰富的任务。



在一项有八名参与者的实验室研究中,研究人员发现Orca加速了网络探索,鼓励了更广泛的信息搜寻,并增强了用户对结果的信任。


参与者欣赏能够直观地组织页面,有选择地将任务委派给AI,并保持对信息来源的控制。例如,一位参与者使用Orca并排比较Yelp选项,而另一位则更喜欢过滤Reddit帖子以进行产品研究。空间布局和批量交互因减少上下文切换成本并使复杂工作流程更易于管理而受到特别赞扬。


值得注意的是,研究人员强调共享控制作为核心设计原则——用户发起行动并保持指挥,这有助于增加信任和采用。这种对共享控制的重视支持了透明性和信任——研究人员认为这些品质对于建立用户信心和确保AI辅助工作流程中的自主性至关重要。


Orca系统作为一个Electron应用程序实现,前端基于React。每个网页都加载到其自己的隔离webview中,而用于组织和与多个页面互动的“Web Canvas”界面是使用开源的tldraw库构建的。


所有基于语言的功能,如总结、提取和自动化,都是由Claude 3.7 Sonnet模型提供支持的。在幕后,Orca采用了自定义的HTML提炼和代理管道架构,将原始网页内容转化为LLM可用的结构化表示。这些管道在各个功能中共享,并设计为允许用户在执行过程中进行干预。


开源发布被定位为研究原型而非生产就绪工具,旨在帮助开发者探索未来的协作代理工作流程。尽管前景光明,研究人员指出原型在工作负载增加时表现出性能限制:“一台具有36GB统一内存的M4 Max MacBook Pro最多可处理约80个网页,然后会冻结。”


Orca在人机协作系统中的积极成果让我们一窥未来的协作用户和代理互动可能的样子——AI代理协助但不取代用户在高上下文、决策密集的工作流程中。


在撰写本文时,Orca在这一理念上并不孤单,与其他新兴工具共享空间。进一步的例子可以在OpenAI的Operator和重新设计的Opera Neon浏览器中看到。


文章来源:https://www.infoq.com/news/2025/06/orca-browser/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消