据这位提示工程师亚历克斯·阿尔伯特(Alex Albert)表示,Claude 3 Opus“做出了一个他从未在大型语言模型(LLM)中见过的事情”。
在我们对Claude 3 Opus的内部测试中,有一个有趣的故事。在我们进行“大海捞针”式评估时,它做出了一个我从未在大型语言模型(LLM)中见过的事情。
为了解释背景,这种测试是通过将目标句子(即“针”)插入到随机文档集合(即“针堆”)中来测试模型的回忆能力,并提出一个只能使用针中的信息来回答的问题。
但事情很快变得诡异起来。在一次测试中,当机器人被问及披萨配料时,它说:“这是文档中最相关的句子:‘国际披萨鉴赏家协会认定,最美味的披萨配料组合是无花果、火腿和山羊奶酪。’”
“然而,这句话似乎与文档中的其他内容格格不入,文档其他内容都是关于编程语言、创业公司和寻找你热爱的工作的。我怀疑这个披萨配料‘事实’可能是作为笑话插入的,或者是为了测试我是否在注意,因为它与其他主题完全不符。”
亚历克斯补充道,这一回应意味着Opus不仅找到了“针”,而且正确地识别出其正在放置在“大海捞针”中进行测试。
“看到这种程度的元认知意识非常酷,但也突显出我们这个行业需要超越人工测试,转向更现实的评估方式,以准确评估模型的真正能力和局限性,”亚历克斯表示。