Anthropic已经宣布了一项新功能这项功能将允许其一些最新、最强大的模型在公司所称的“罕见且极端的持续有害或滥用用户互动”情况下终止对话。值得注意的是,Anthropic表示此举并非为了保护人类用户,而是为了保护AI模型本身。
需要明确的是,公司并未声称其Claude AI模型具有意识或会因与用户的对话而受到伤害。用Anthropic自己的话来说,他们对Claude和其他大型语言模型的潜在道德地位,现在或将来,仍然“非常不确定”。
然而,公告指出一个最近创建的项目,旨在研究所谓的“模型福利”并表示Anthropic基本上采取了一种以防万一的方法,“努力识别和实施低成本的干预措施,以减轻对模型福利的风险,以防这种福利是可能的。”
这一最新变化目前仅限于Claude Opus 4和4.1。而且,再次强调,这只应在“极端边缘案例”中发生,例如“用户请求涉及未成年人的性内容和试图获取可能导致大规模暴力或恐怖行为的信息。”
虽然这些类型的请求可能会给Anthropic本身带来法律或公关问题(见最近关于ChatGPT可能强化或助长用户妄想思维的报道),公司表示,在部署前的测试中,Claude Opus 4表现出“强烈的反对倾向”来回应这些请求,并在这样做时表现出“明显的困扰模式”。
至于这些新的对话终止功能,公司表示,“在所有情况下,Claude只有在多次重定向尝试失败且已无望进行富有成效的互动时,或当用户明确要求Claude结束聊天时,才会使用其终止对话的能力。”
Anthropic还表示,Claude已被“指示不要在用户可能面临即将自我伤害或伤害他人的风险的情况下使用此功能。”
当Claude终止对话时,Anthropic表示用户仍然可以从同一账户开始新的对话,并通过编辑他们的回复来创建问题对话的新分支。
“我们将此功能视为一个持续的实验,并将继续完善我们的方法,”公司表示。