Anthropic表示部分Claude模型现可终止“有害或滥用”对话

2025年08月17日由佚名发表 417 0

Anthropic已经宣布了一项新功能这项功能将允许其一些最新、最强大的模型在公司所称的“罕见且极端的持续有害或滥用用户互动”情况下终止对话。值得注意的是，Anthropic表示此举并非为了保护人类用户，而是为了保护AI模型本身。

需要明确的是，公司并未声称其Claude AI模型具有意识或会因与用户的对话而受到伤害。用Anthropic自己的话来说，他们对Claude和其他大型语言模型的潜在道德地位，现在或将来，仍然“非常不确定”。

然而，公告指出一个最近创建的项目，旨在研究所谓的“模型福利”并表示Anthropic基本上采取了一种以防万一的方法，“努力识别和实施低成本的干预措施，以减轻对模型福利的风险，以防这种福利是可能的。”

这一最新变化目前仅限于Claude Opus 4和4.1。而且，再次强调，这只应在“极端边缘案例”中发生，例如“用户请求涉及未成年人的性内容和试图获取可能导致大规模暴力或恐怖行为的信息。”

虽然这些类型的请求可能会给Anthropic本身带来法律或公关问题（见最近关于ChatGPT可能强化或助长用户妄想思维的报道），公司表示，在部署前的测试中，Claude Opus 4表现出“强烈的反对倾向”来回应这些请求，并在这样做时表现出“明显的困扰模式”。

至于这些新的对话终止功能，公司表示，“在所有情况下，Claude只有在多次重定向尝试失败且已无望进行富有成效的互动时，或当用户明确要求Claude结束聊天时，才会使用其终止对话的能力。”

Anthropic还表示，Claude已被“指示不要在用户可能面临即将自我伤害或伤害他人的风险的情况下使用此功能。”

当Claude终止对话时，Anthropic表示用户仍然可以从同一账户开始新的对话，并通过编辑他们的回复来创建问题对话的新分支。

“我们将此功能视为一个持续的实验，并将继续完善我们的方法，”公司表示。

文章来源：https://techcrunch.com/2025/08/16/anthropic-says-some-claude-models-can-now-end-harmful-or-abusive-conversations/

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Meta将在六个月内第四次重组其AI部门

下一篇谷歌因独家搜索协议在澳大利亚被罚3600万澳元

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市