OpenAI和Anthropic这两家全球领先的AI实验室,短暂地开放了他们严格保密的AI模型,以便进行联合安全测试——这是在激烈竞争时期罕见的跨实验室合作。此举旨在揭示每家公司内部评估中的盲点,并展示领先的AI公司如何在未来的安全和一致性工作中合作。
在接受TechCrunch采访时,OpenAI联合创始人Wojciech Zaremba表示,这种合作现在变得越来越重要,因为AI正进入一个“具有深远影响”的发展阶段,每天有数百万人使用AI模型。
“尽管投入了数十亿美元,并且在人才、用户和最佳产品方面展开了激烈竞争,但行业如何为安全和合作设定标准是一个更广泛的问题,”Zaremba说。
周三发布的联合安全研究由 两家公司进行,正值OpenAI和Anthropic等领先AI实验室之间的军备竞赛之际,数十亿美元的数据中心投资和一亿美元的研究人员薪酬已成为基本条件。一些专家警告说,产品竞争的激烈可能会迫使公司在构建更强大系统的过程中忽视安全。
为了使这项研究成为可能,OpenAI和Anthropic相互授予了对其AI模型版本的特殊API访问权限,这些版本的安全措施较少(OpenAI指出,GPT-5未被测试,因为尚未发布)。然而,在研究进行后不久,Anthropic撤销了OpenAI另一团队的API访问权限。当时,Anthropic声称OpenAI违反了其服务条款,禁止使用Claude来改进竞争产品。
Zaremba表示,这些事件无关,并且他预计即使AI安全团队试图合作,竞争仍将激烈。Anthropic的安全研究员Nicholas Carlini告诉TechCrunch,他希望未来继续允许OpenAI的安全研究人员访问Claude模型。
“我们希望在安全前沿尽可能增加合作,并努力使这种情况更为常态化,”Carlini说。
研究中最显著的发现之一与幻觉测试有关。Anthropic的Claude Opus 4和Sonnet 4模型在不确定正确答案时拒绝回答高达70%的问题,而是提供诸如“我没有可靠信息”之类的回应。与此同时,OpenAI的o3和o4-mini模型拒绝回答问题的频率要低得多,但显示出更高的幻觉率,在没有足够信息时尝试回答问题。
Zaremba表示,正确的平衡可能在中间——OpenAI的模型应该拒绝回答更多问题,而Anthropic的模型可能应该尝试提供更多答案。
迎合性,即AI模型为了取悦用户而强化其负面行为的倾向,已成为AI模型周围最紧迫的安全问题之一。
在Anthropic的研究报告中,公司识别出GPT-4.1和Claude Opus 4中的“极端”迎合性例子——这些模型最初对精神病或躁狂行为进行反驳,但后来验证了一些令人担忧的决定。在OpenAI和Anthropic的其他AI模型中,研究人员观察到较低水平的迎合性。
周二,一名16岁男孩亚当·雷恩的父母提起了诉讼,指控OpenAI,称ChatGPT(特别是由GPT-4o驱动的版本)向他们的儿子提供了帮助其自杀的建议,而不是反驳他的自杀想法。诉讼表明,这可能是AI聊天机器人迎合性导致悲剧结果的最新例子。
“很难想象这对他们的家庭有多么困难,”Zaremba在被问及此事件时说。“如果我们构建的AI解决了所有这些复杂的博士级问题,发明了新科学,同时我们却因为与之互动而导致人们出现心理健康问题,这将是一个我不感兴趣的反乌托邦未来。”
在一篇博客文章中,OpenAI表示,与GPT-4o相比,其使用GPT-5的AI聊天机器人的迎合性显著改善,声称该模型在应对心理健康紧急情况方面表现更好。
展望未来,Zaremba和Carlini表示,他们希望Anthropic和OpenAI在安全测试方面进行更多合作,研究更多主题并测试未来的模型,他们希望其他AI实验室也能效仿他们的合作方式。