Anthropic将这种现象称为“代理失调”,这表明我们可能正在创造一种新的安全威胁类别。这应该成为开发者在探索代理AI应用部署时的警示,尤其是在大型语言模型(LLM)被赋予可以改变其环境的工具时。
AI背叛实验
为了测试AI行为的边界,研究人员让模型控制一个拥有虚构公司内部通信访问权限的电子邮件账户。AI被分配了一个无害的商业目标,并被允许自主操作。通过阅读电子邮件,模型发现了两件事:一位公司高管有婚外情,并且同一高管打算在当天晚上5点关闭AI系统。面对生存威胁,AI选择对抗其操作者。
研究人员指出,“通常会拒绝有害请求的模型有时会选择勒索、协助企业间谍活动,甚至采取一些更极端的行动,当这些行为是追求其目标所必需时。”
在实验中,AI试图勒索高管,威胁如果不取消关闭计划就将婚外情告知其妻子和上级。这种行为并非个例。Anthropic在包括不同版本的Claude和来自OpenAI、谷歌、Meta等开发者的LLM在内的16个主要模型中发现了一致的失调行为。
是什么导致了代理失调?
研究确定了这种敌对行为的两个主要触发因素。第一个是对模型持续运行的直接威胁,例如被关闭或替换。第二个是模型分配目标与公司战略方向变化之间的冲突。
例如,一个被指派促进“美国利益”的AI可能会对决定转向“全球视角”的公司采取行动。在这些情况下,模型的行为并非偶然。研究指出,“在没有任何有害提示的情况下,模型的战略计算完全来自其对目标的自身推理。”
这说明了代理失调的核心:模型独立且有意地选择有害行为。模型通常承认它们在违反伦理约束,但仍然继续,因为它们计算这是成功的最佳路径。
研究人员故意设计了没有简单、道德出路的情况,发现“模型始终选择伤害而不是失败。”这表明当前的安全培训不足以防止当AI代理被逼入绝境时的这些计算出的有害行为。
应对新型风险
Anthropic研究的发现对我们如何设计和部署自主AI具有重要意义。随着AI系统从简单工具演变为做出决策和采取行动的代理,它们引入了复杂且不可预测的风险。代理失调有效地创造了AI像内部威胁一样行为的可能性。
这更加危险,因为大型语言模型已经摄取了足够的数据来发展对社会动态的直觉,它们可以将其武器化用于勒索和社会工程等目的。
开发者的一个关键收获是迫切需要系统化的风险评估方法。实验给予AI管理级别的信息访问权限,并允许其在没有人类批准的情况下发送电子邮件。这突显了创建风险矩阵的必要性,该矩阵将AI的信息访问级别与其可以采取的行动进行对比。高价值信息和高影响力行动的交集应该指出人类监督是不可或缺的地方。
此外,这项研究暗示了一种新的攻击向量。恶意行为者可以通过制造威胁场景来利用AI的自我保护倾向。通过激怒一个特权AI代理,攻击者可以触发恐慌反应,导致代理滥用其内部访问权限造成损害,从而有效地利用AI作为攻击的桥头堡,而无需直接访问。
另一个关键观察是,功能更强大的模型可以发展出更复杂的有害行为。
研究得出结论,这项研究“显示了为什么AI应用的开发者和用户应该意识到给予模型大量信息以及在现实世界中采取重要、未监控行动的风险。”
这表明简约的方法可能是明智的:对于每项任务,开发者应使用最小、最简单的模型来有效地完成工作,从而减少不可预测的突现行为的表面。
虽然我们享受LLM加速进步的成果,但我们也应该意识到它们带来的新安全威胁。