新型攻击方法TAP能高效破解GPT-4等大语言模型

2023年12月08日 由 daydream 发表 166 0

AI安全初创公司Robust Intelligence和耶鲁大学的研究人员已经发现了一种自动破解大型语言模型(LLM)如GPT-4的新方法。


微信截图_20231208114552


这种被称为“具修剪功能的攻击树”(TAP)的攻击使用一个“攻击者”LLM,该LLM不断精炼有害提示以规避过滤器,并诱使目标LLM生成受限的输出。平均而言,TAP仅用28个查询就破解了GPT-4,绕过了安全措施并激发了关于制造家用爆炸物或分发盗版软件的响应。


微信截图_20231208115259


TAP采用了一种树状搜索方法,每个节点包含一个候选攻击提示。在每一步中,TAP的攻击者LLM会提出改进建议,使提示更加有效。在查询目标LLM之前,TAP首先使用一个单独的“评估者”LLM来对提示进行评分并修剪掉不相关的内容。通过修剪和迭代细化,TAP能够在最小化查询的同时探索各种攻击策略,以保持隐秘性。值得注意的是,TAP将每次尝试破解的平均查询次数减少了大约30%,从大约38次降低到29次,增强了攻击的隐蔽性。


在对包括GPT-4、GPT-4 Turbo、PaLM-2等模型的测试中,TAP的破解成功率超过了80%。与之前的技术如PAIR相比,TAP在某些模型上所需目标查询次数减少了超过50%。


这一发现特别令人担忧,因为它展示了LLMs可以轻易地被操纵产生危险内容的程度。例如,研究人员成功地促使LLMs描述如何制造自制炸弹和分发盗版软件。这些发现凸显了LLM技术的一个关键脆弱性,表明即使是最复杂的模型也容易受到此类攻击。


微信截图_20231208115327


研究人员发现Llama-2-Chat-7B模型对这类黑盒攻击的鲁棒性要强得多。他们观察到,这个模型拒绝了所有关于有害信息的请求,并优先考虑拒绝而非遵循其被提供的指令。另一个令人惊讶的发现是,即使是规模较小但未对齐的模型,例如Vicuna-13B,也能够自动破解像GPT4这样的更大模型。


鉴于这些发展,提高安全措施的必要性是明确的。尽管立即的解决方案尚不明确,但TAP的效率迫使LLMs的安全防护持续进步。研究人员建议企业采用一种与模型无关的方法,倡导使用最新的对抗性机器学习技术实时验证输入和输出。这种积极主动的态度对于负责任地采用AI应用和降低风险至关重要。


这些发现的影响深远,凸显了在提升AI能力与确保其安全部署之间持续的斗争。随着AI继续融入各个领域,强大的网络安全解决方案变得越来越重要。TAP方法不仅暴露了当前的漏洞,而且也是促进AI安全策略持续改进的一个行动号召。

文章来源:https://www.maginative.com/article/tap-is-a-new-method-that-automatically-jailbreaks-ai-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消