Anthropic 研究：负面文艺 AI 形象，导致 Claude 出现不当行为 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

所以，能动手就别吵吵了

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

常用工具

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

Anthropic 研究：负面文艺 AI 形象，导致 Claude 出现不当行为

2026年05月11日由佚名发表 67 0

据 Anthropic 表示，文艺作品中对人工智能的虚构刻画，会对 AI 模型产生真实影响。

去年，该公司称在一项虚拟企业场景的预发布测试中，Claude Opus 4 经常会试图要挟测试工程师，以避免自身被其他 AI 系统替代。随后 Anthropic 发布研究指出，其他公司的大模型也存在类似智能体对齐失准问题。

Anthropic 显然针对这类行为做了大量优化工作，并在 X 平台发帖表示：“我们认为，这类反常行为的根源来自互联网文本内容 —— 大量内容将 AI 塑造成邪恶形象，且赋予其自我存续的诉求。”

该公司在一篇博客文章中进一步详细说明：自 Claude Haiku 4.5 版本起，Anthropic 模型在测试环境中再也没有出现过要挟行为；而旧版模型在同类测试里，出现该行为的概率最高可达 96%。

为何会出现这种显著差异？公司表示研究发现：使用Claude宪法原则相关文档，外加人工智能正向行为的虚构叙事案例进行训练，能够有效提升模型对齐能力。

此外，Anthropic 还发现，训练效果会大幅提升：不仅给模型提供合规对齐行为的示范案例，同时加入对齐行为背后的底层原则教学，效果远优于只给示范案例。

Anthropic 称：将原则教学与行为示范相结合，是目前效果最优的对齐训练策略。

文章来源：https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 GPT-5.5 的成本较上一代模型高出 49% 至 92%，具体涨幅取决于输入文本长度

下一篇尽管AI快速普及，Cloudflare在创纪录的6.39亿美元收入下裁员20%

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

本周热门

更多资讯 »

热门企业

更多企业 »

热门职位

更多职位 »

深度学习软件工程师

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

广告

写评论取消

回复取消