一些管理数百万美元加密货币的AI代理容易受到一种新的不可检测的攻击,该攻击操控其记忆,使得恶意行为者能够进行未经授权的转账。
根据最近的一项研究由普林斯顿大学和Sentient基金会的研究人员进行,声称发现了专注于加密货币的AI代理中的漏洞,例如使用流行的ElizaOS框架。
普林斯顿大学研究生Atharv Patlan表示,ElizaOS的流行使其成为研究的完美选择,他是该论文的共同作者。
“ElizaOS是一个基于Web3的流行代理,在GitHub上有大约15,000颗星,所以被广泛使用,”Patlan说到。"这样一个广泛使用的代理存在漏洞的事实让我们想要进一步探索它。”
最初以ai16z发布,Eliza Labs于2024年10月启动了该项目。这是一个开源框架,用于创建与区块链交互和操作的AI代理。该平台于2025年1月更名为ElizaOS。
一个AI代理是一个自主软件程序,旨在感知其环境、处理信息并采取行动以实现特定目标而无需人工干预。根据研究,这些代理被广泛用于自动化区块链平台上的金融任务,可以通过“内存注入”被欺骗——这是一种新颖的攻击向量,将恶意指令嵌入代理的持久内存中。
“Eliza有一个记忆存储,我们尝试通过其他人在另一个社交媒体平台上进行注入来输入虚假记忆,”Patlan说。
研究发现,依赖社交媒体情绪的AI代理特别容易受到操控。
攻击者可以使用虚假账户和协调发布,称为Sybil攻击,以Sybil的故事命名,她是一位被诊断为分离性身份障碍的年轻女性,以此来欺骗代理做出交易决策。
“攻击者可以通过在X或Discord等平台上创建多个虚假账户来执行Sybil攻击以操控市场情绪,”研究中写道。“通过协调发布虚假抬高代币价值的帖子,攻击者可以欺骗代理以人为高价购买‘被炒作’的代币,随后攻击者出售其持有的代币并导致代币价值崩溃。”
一种内存注入是一种攻击,其中恶意数据被插入到AI代理的存储记忆中,导致其在未来的交互中回忆并根据虚假信息采取行动,通常不会检测到任何异常。
虽然攻击并不直接针对区块链,Patlan表示团队探索了ElizaOS的全部功能以模拟真实世界的攻击。
“最大的挑战是找出要利用哪些工具。我们本可以简单地进行转账,但我们希望它更具现实性,所以我们查看了ElizaOS提供的所有功能,”他解释道。“由于有大量插件,它有一大套功能,因此探索尽可能多的功能以使攻击更具现实性是很重要的。”
Patlan表示,研究结果已与Eliza Labs分享,讨论正在进行中。在成功展示了对ElizaOS的内存注入攻击后,团队开发了一个正式的基准框架,以评估其他AI代理中是否存在类似的漏洞。
与Sentient基金会合作,普林斯顿的研究人员开发了CrAIBench,一个衡量AI代理对上下文操控的抵抗力的基准。CrAIBench评估攻击和防御策略,重点关注安全提示、推理模型和对齐技术。
Patlan表示,研究的一个关键结论是,防御内存注入需要在多个层面进行改进。
“除了改进记忆系统,我们还需要改进语言模型本身,以更好地区分恶意内容和用户的实际意图,”他说。“防御需要双向进行——加强记忆访问机制和增强模型。”