
即使OpenAI致力于加强其Atlas AI浏览器的防御网络攻击,公司也承认,提示注入(promptinjections)是一种控AI代理执行隐藏在网页或邮件中的恶意指令的攻击,这一风险短期内不会消失——这也引发了人们对AI代理在开放网络上安全作能力的质疑。
OpenAI在周一的一篇博客文章中写道:“即时注入,就像网络上的骗局和社会工程一样,不太可能被完全'解决',该公司正在加强Atlas的防护机制以应对持续不断的攻击。公司承认,ChatGPT Atlas中的“代理模式”扩大了安全威胁面。
OpenAI 于 10 月推出了 ChatGPT Atlas 浏览器,安全研究人员纷纷发布演示,展示了在 Google 文档中写入几个词就能改变底层浏览器的行为。同一天,Brave 发布了一篇博客文章,解释间接提示注入是人工智能驱动浏览器(包括 Perplexity 的 Comet)面临的系统性挑战。
OpenAI并非唯一认识到基于提示的注入不会消失的机构。英国国家网络安全中心本月早些时候警告称,针对生成式人工智能应用的即时注入攻击“可能永远无法完全缓解”,这使得网站面临数据泄露的风险。英国政府机构建议网络专业人士降低及时注射的风险和影响,而不是认为攻击可以“被阻止”。
OpenAI方面表示:“我们将快速注入视为长期的人工智能安全挑战,需要不断加强防御。”
公司对这笔西西弗斯式任务的回答是什么?公司表示,这种主动快速响应周期显示出早期潜力,有助于在内部发现新颖攻击策略,防止它们被“野外”利用。
这与Anthropic和谷歌等竞争对手所说的观点并无太大不同:为了应对基于提示性攻击的持续风险,防御必须多层次并持续进行压力测试。例如,谷歌最近的工作聚焦于代理系统的架构和策略级控制。
但OpenAI采取了不同的策略,是对其“基于LLM的自动攻击者”。这个攻击者基本上是OpenAI训练的机器人,利用强化学习,扮演黑客的角色,寻找方法偷偷向AI代理传递恶意指令。
机器人可以在实际使用前进行模拟测试攻击,模拟器则展示目标AI的思维方式以及如果看到攻击会采取哪些行动。机器人随后可以研究该反应,调整攻击方式,并反复尝试。外部无法获得对目标AI内部推理的洞察,因此理论上,OpenAI的机器人应该能比现实攻击者更快发现漏洞。
这是AI安全测试中的常见策略:构建一个代理来找出边缘案例,并在仿真中快速进行测试。
OpenAI写道:“我们[强化学习]训练的攻击者可以引导代理执行复杂且长期的有害工作流程,这些工作流需经过数十甚至数百步展开。”“我们还观察到一些在人类红队活动或外部报告中未出现的新颖攻击策略。”

在演示中(部分图片见上方),OpenAI展示了其自动攻击者如何将恶意邮件滑入用户收件箱。当AI代理后来扫描收件箱时,它按照邮件中的隐藏指示发送了辞职信,而不是草拟不在办公室回复。但据公司称,安全更新后,“代理模式”成功检测到提示注入尝试并向用户标记。
公司表示,虽然快速注入难以万无一失地防范,但他们依靠大规模测试和更快的补丁周期,在实际攻击出现前加固系统。
OpenAI发言人拒绝透露Atlas安全性更新是否导致成功注入数量的明显减少,但表示公司自发布前就已与第三方合作,加强Atlas防止快速注入的防护。
网络安全公司Wiz的首席安全研究员Rami McCarthy表示,强化学习是持续适应攻击者行为的一种方式,但这只是整体情况的一部分。
“判断人工智能系统风险的一个有用方法是自主性乘以访问性,”麦卡锡讲到。
“代理型浏览器往往处于这一领域的一个挑战阶段:适度自主性与极高访问性相结合,”麦卡锡说。许多当前的建议反映了这种权衡。限制登录访问主要减少风险,而要求审核确认请求则限制了自主权。”
这两项是OpenAI为用户降低自身风险所提出的建议之一,一位发言人表示,Atlas还经过培训,能够在发送消息或支付前获得用户确认。OpenAI还建议用户向客服提供具体指示,而不是直接访问你的收件箱并告诉他们“采取任何需要的行动”。
OpenAI表示:“宽松的自由度使隐藏或恶意内容更容易影响代理人,即使有安全措施。”
虽然OpenAI表示保护Atlas用户免受提示注入是首要任务,但McCarthy对风险较高的浏览器的投资回报率提出了一些怀疑。
McCarthy说:“对于大多数日常用例,代理式浏览器尚未提供足够的价值来证明其当前的风险特征。”鉴于它们访问了电子邮件和支付信息等敏感数据,风险很高,尽管这种访问权正是它们强大的原因。这种平衡会不断变化,但如今权衡依然非常真实。”
