
微软公司今天,微软公司展示了其面向日常消费者的人工智能代理未来愿景,推出了最新的Fara-7B模型。该模型可以在个人电脑上本地运行,足够智能以完成计算机任务。
该公司在一篇博客文章中表示Fara-7B是其首个专为“计算机使用”任务设计的小型语言模型,能够控制鼠标和键盘。
由于它仅包含70亿个参数,显著小于当今最强大的大型语言模型。例如,即使是2020年推出的GPT-3——在AI热潮真正开始之前——也拥有超过1750亿个参数。然而,其小巧的体积并不妨碍它实现微软所称的“最先进的性能”,尤其是在与同类大小的其他模型相比时。
据称,Fara-7B在与利用多个大型语言模型的更大、更资源密集的代理系统竞争时也具有竞争力。例如,微软声称,当专门配置为浏览网页时,它可以超越OpenAI集团PBC的GPT-4o。
微软解释说,Fara-7B通过视觉感知网站来工作,而不是使用单独的模型来解析屏幕上的信息,也不使用诸如“可访问性树”之类的附加信息。相反,它使用与人类相同的方式与网站互动。
在三个视频中,微软展示了Fara-7B如何在线购买产品、搜索信息并提供其发现的摘要,以及使用在线地图测量两个位置之间的距离,所有这些都基于用户的简单提示。在视频中可以注意到,Fara-7B执行这些任务的速度比人类可能要慢得多,并且用户需要在某些步骤中进行批准,例如输入账户登录信息。尽管如此,这仍然是一个有趣的展示,展示了一个未来,AI模型自动化人们的日常任务成为常态,尤其是在它们变得更聪明和更快之后。

当然,微软的Copilot工具也可以像代理一样代表用户自动化任务,但不同之处在于它不能在PC上本地运行。相反,Copilot只能在连接到微软庞大的基于云的数据中心时运行,这意味着它必须始终在线。它还从用户的PC收集大量数据,这可能会引发隐私问题,尽管微软有各种政策来防止敏感信息落入不当之手。
Fara-7B本地运行,因为它直接安装在PC上,这意味着它仅利用可用的本地硬件。因此,它不会将任何数据发送到云端,从而减少延迟并提高隐私性,微软表示。它建立在公司早期的小型语言模型努力的基础上。去年,微软发布了一个名为Phi-4的模型,它小到足以在智能手机设备上本地运行。
尽管如此,Fara-7B并不总是完美的,微软承认。在测试期间,它确实犯了一些错误,特别是在一些更复杂的任务中准确性方面存在困难,有时在遵循指令时会出错。公司表示,它仍然在某种程度上容易出现幻觉。
准确性问题是微软仅允许用户在隔离的沙盒环境中测试Fara-7B的原因,在这种环境中可以监控其性能并防止用户向其发送敏感数据。公司补充说,它为该模型开发了安全措施,因此它会拒绝执行任何恶意提示。
微软表示,Fara-7B将在微软Foundry和Hugging Face上以MIT许可证提供,并且只能与Magnetic-UI,其原型AI研究平台一起使用。未来,公司将发布另一个版本的Fara-7B,专为在Windows 11 Copilot+ PC上运行而设计,这些PC配备了专用的AI模型处理硬件。
