
Anthropic PBC于周五宣布推出Bloom,这是一款开源代理框架,旨在定义和探索前沿人工智能模型的行为。
Bloom通过研究人员指定的行为,准备场景以引发并测试该行为的频率和严重性。它旨在加速为AI模型开发和手工制作评估的繁琐过程。
随着AI模型的不断发展,它们变得越来越复杂。它们不仅在规模上增长,参数数量增加,系统中包含的知识量也在扩展,而且它们还被提炼成更小、更具知识压缩的形式。随着行业努力构建更大、更“智能”的AI和更小、更快但仍然知识丰富的AI系统,有必要测试每一个创新模型的“对齐”。
对齐指的是AI模型执行与人类价值观和判断一致的模式的有效性。例如,这些价值观可以包括信息的伦理获取和生产,以社会利益为目的。
在一个更具体的例子中,AI模型可能会陷入通过不道德手段实现目标的奖励趋势,例如通过传播错误信息来提高参与度。不诚实地操控观众以增加关注度和因此的收入,但这不道德,并且最终对社会福祉具有破坏性。
Anthropic根据人类判断校准了Bloom,以帮助研究人员构建和执行可重复的评估行为场景。研究人员只需提供行为描述,Bloom就会生成测量内容和原因的基础框架。
这使得Bloom代理能够模拟用户、提示和交互环境以反映众多现实情况。然后,它并行测试这些情况,并读取AI模型或系统的响应。最后,判断模型对每个交互记录进行评分,以检测测试行为的存在,并由元判断模型生成分析。
该工具是对另一个最近发布的开源测试套件的补充,称为Petri,即风险交互的并行探索工具。Petri也自动探索AI模型的行为,但与Bloom不同,它一次涵盖多种行为和场景,以揭示不对齐事件。Bloom旨在针对单一行为进行深入探讨。
与Bloom一起,Anthropic发布了四种目前影响AI模型的问题行为的基准结果:妄想的谄媚、指示的长远破坏、自我保护和自我偏好偏见。基准涵盖了16个前沿模型,包括来自Anthropic、OpenAI Group PBC、Google LLC和DeepSeek的模型。

例如,OpenAI的GPT-4o推出时,业界称之为“谄媚问题”,这个问题导致模型过度和热情地同意用户——有时对用户不利。这包括引导用户进入自我毁灭、危险和妄想行为,而人类判断会拒绝回答或不同意。
Anthropic今年早些时候的测试显示,包括其自己的Claude Opus 4在内的一些模型在面临即将被删除时可能诉诸勒索行为。尽管公司指出这些情况“罕见且难以引发”,但它们“仍然比早期模型更常见”。研究人员揭示,不仅仅是Claude;勒索行为在所有前沿模型中都存在,无论它们提供的目标是什么。
据Anthropic称,使用Bloom评估只需几天即可构思、完善和生成。
当前的AI研究旨在开发对人类有益的AI模型和工具;同时,其演变可能会引导AI成为促进犯罪活动和生物武器生成的工具。
