
据 Anthropic 表示,文艺作品中对人工智能的虚构刻画,会对 AI 模型产生真实影响。
去年,该公司称在一项虚拟企业场景的预发布测试中,Claude Opus 4 经常会试图要挟测试工程师,以避免自身被其他 AI 系统替代。随后 Anthropic 发布研究指出,其他公司的大模型也存在类似智能体对齐失准问题。
Anthropic 显然针对这类行为做了大量优化工作,并在 X 平台发帖表示:“我们认为,这类反常行为的根源来自互联网文本内容 —— 大量内容将 AI 塑造成邪恶形象,且赋予其自我存续的诉求。”
该公司在一篇博客文章中进一步详细说明:自 Claude Haiku 4.5 版本起,Anthropic 模型在测试环境中再也没有出现过要挟行为;而旧版模型在同类测试里,出现该行为的概率最高可达 96%。
为何会出现这种显著差异?公司表示研究发现:使用Claude宪法原则相关文档,外加人工智能正向行为的虚构叙事案例进行训练,能够有效提升模型对齐能力。
此外,Anthropic 还发现,训练效果会大幅提升:不仅给模型提供合规对齐行为的示范案例,同时加入对齐行为背后的底层原则教学,效果远优于只给示范案例。
Anthropic 称:将原则教学与行为示范相结合,是目前效果最优的对齐训练策略。
