Anthropic 研究:负面文艺 AI 形象,导致 Claude 出现不当行为

2026年05月11日 由 佚名 发表 67 0


据 Anthropic 表示,文艺作品中对人工智能的虚构刻画,会对 AI 模型产生真实影响。


去年,该公司称在一项虚拟企业场景的预发布测试中,Claude Opus 4 经常会试图要挟测试工程师,以避免自身被其他 AI 系统替代。随后 Anthropic 发布研究指出,其他公司的大模型也存在类似智能体对齐失准问题。


Anthropic 显然针对这类行为做了大量优化工作,并在 X 平台发帖表示:“我们认为,这类反常行为的根源来自互联网文本内容 —— 大量内容将 AI 塑造成邪恶形象,且赋予其自我存续的诉求。”


该公司在一篇博客文章中进一步详细说明:自 Claude Haiku 4.5 版本起,Anthropic 模型在测试环境中再也没有出现过要挟行为;而旧版模型在同类测试里,出现该行为的概率最高可达 96%。


为何会出现这种显著差异?公司表示研究发现:使用Claude宪法原则相关文档,外加人工智能正向行为的虚构叙事案例进行训练,能够有效提升模型对齐能力。


此外,Anthropic 还发现,训练效果会大幅提升:不仅给模型提供合规对齐行为的示范案例,同时加入对齐行为背后的底层原则教学,效果远优于只给示范案例。


Anthropic 称:将原则教学与行为示范相结合,是目前效果最优的对齐训练策略。

文章来源:https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消