初创公司Patronus AI Inc.今天宣布推出一款名为Percival的工具,旨在帮助开发者更快速地修复人工智能代理中的问题。
Patronus AI获得了来自Datadog Inc.、Lightspeed等支持者的2000万美元资金支持。其旗舰产品是一个平台,帮助开发者为AI应用程序选择最合适的语言模型,过滤不准确的输出并执行相关任务。公司还提供用于测试AI应用程序可靠性的数据集。
AI代理通常将其执行的任务分解为多个子步骤。可能有几十个甚至更多的子步骤,这使得排查错误变得困难。为了确定代理为何错误地执行任务,开发者必须识别导致故障的具体子步骤。
由于AI代理错误可能引发连锁反应,工作流程变得更加复杂。如果任务的第五和第六个子步骤依赖于第三个子步骤生成的数据,那么该数据中的错误可能导致它们发生故障。这种相互依赖性使得识别错误的根本原因更加困难。
Patronus AI的新工具Percival使用AI来自动化这一过程。根据公司介绍,它可以分析AI代理执行任务的工作流程,并识别出导致问题的具体子步骤。然后,Percival生成一份描述其发现的自然语言摘要。
Patronus AI表示,该工具可以排查超过20种故障类型。例如,它可以识别AI代理的输出何时与用户请求不符或包含格式问题。Percival还可以识别出响应中包含过时信息的情况。
有些任务需要AI代理与第三方系统交互。例如,查找应用程序中的错误可能需要编程代理从存储代码的GitHub仓库中检索应用程序代码。Percival能够检测影响任务所用第三方系统的错误。
该工具可以发现代理使用错误的外部系统来处理提示。它还可以识别一系列相关问题,例如代理为任务选择了正确的第三方应用程序但超出了其使用上限的情况。
“当开发者花费数小时追踪代理工作流程,最终发现五步前的决策导致了最终错误时,他们不仅是在浪费时间——他们可能正在失去对系统的控制,”联合创始人兼首席执行官Anand Kannappan说。“Percival让开发者能够立即理解并修复他们的AI代理。”
Percival将其检测到的AI代理错误信息存储在Patronus AI称为情节记忆的系统中。根据公司介绍,这种记忆允许工具从过去的故障中学习并提高其检测准确性。此外,开发者可以使用Percival收集的错误数据来基准测试其AI代理的可靠性随时间的变化。