AI代理应用程序:定义自主性的软件系统

2024年08月07日 由 alex 发表 129 0

简介

自大型语言模型(LLM)问世以来,有两大进展。第一个转变与模型有关,第二个转变与流程工程有关。


模型

从仅有 LLM 的环境,到引入小型语言模型。这些模型在推理、上下文对话转向和历史管理方面具有卓越的能力,但没有知识密集型的负担。


用于本地/边缘/离线推理的量化软件很容易获得,许多功能强大的模型已开源,并可通过无代码模型部署和托管选项随时使用。


模型也变得多模化,图像摄取和处理在使代理(代理应用程序)更自主地浏览屏幕方面发挥着重要作用。


11


流程工程

仅有提示工程是不够的,我们必须找到一种重复使用提示的方法;因此,我们引入了模板,在推理时可以填充关键数据字段。随后,我们将提示进行连锁,以创建更长的流程和更复杂的应用。


在连锁的基础上,又增加了高度上下文信息和推理,从而产生了一种通过检索增强生成(RAG)利用上下文学习(ICL)的方法。


这一演变的下一步是代理应用(人工智能代理),即赋予应用一定程度的代理权(自主权)。LlamaIndex 将先进的 RAG 功能与 Agent 方法相结合,创造了 Agentic RAG。


自主性

要想提高代理应用程序的代理水平,就需要引入更多的模式。MindSearch 可以通过文本界面探索网络。而 OmniParser、Ferrit-UI 和 WebVoyager 则使代理应用程序能够定义图形界面,并在图形用户界面上导航。


上图是微软公司的 OmniParser,与苹果公司的 FerritUI 和 WebVoyager 采用的方法类似。屏幕元素会被检测出来,用边界框映射并命名。在此基础上,用户界面和任何人工智能对话系统之间都可以创建一个自然语言层。


MindSearch

MindSearch 的前提是,复杂的请求往往无法通过搜索引擎的单一实例进行准确、完整的检索。


在解决问题时,需要整合的相应信息会分散在多个网页上,并伴随着大量的噪音。


此外,大量内容冗长的网页可能会很快超过 LLM 的最大上下文长度。


WebPlanner 将多步骤信息搜索的人类思维模拟为一个动态图构建过程。


它使用 GPT-4o 或 InternLM2.5-7B 模型,将用户查询分解为作为图中节点的原子子问题,并根据 WebSearcher 的搜索结果逐步扩展图。


12


MindSearch 框架

MindSearch 由两个主要部分组成: WebPlanner 和 WebSearcher。


WebPlanner 作为高级计划器,协调推理步骤和多个 WebSearcher。


WebSearcher 进行细粒度的网络搜索,并总结有价值的信息反馈给规划者,从而形成一个简单而有效的多代理框架。


13


一个具体的示例,说明 WebPlanner 如何通过 "规划即编码 "的方式逐步解决这个问题。在每一轮中,WebPlanner 都会输出一系列想法和生成的代码。代码将被执行,并向规划者提供搜索结果。在最后一轮,WebPlanner 会直接给出最终答案。


14


WebSearcher 可作为一个复杂的 RAG(检索和生成)代理访问互联网,根据搜索结果汇总有价值的回复。


15


结论

MindSearch 框架介绍了一种新颖的基于 LLM 的多代理框架,专为复杂的网络信息搜索和整合任务而设计。


它利用复杂查询的有效分解和分层信息检索,将问题解决过程模拟为迭代图构建。


它采用多代理设计(Multi-Agent Design),将认知负荷分配给专门代理,从而提高了处理复杂和冗长情境的能力。


文章来源:https://medium.com/@cobusgreyling/agent-ai-agentic-applications-are-software-systems-with-a-foundation-model-ai-backbone-defined-cab2d6778081
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消