在最近的一篇研究论文中,OpenAI指出,大型语言模型(LLM)产生幻觉的倾向源于标准的训练和评估方法更倾向于奖励猜测而非承认不确定性。根据这项研究,这一见解可能为减少幻觉和构建更可信的AI系统的新技术铺平道路,但并非所有人都同意幻觉的定义。
根据OpenAI研究人员的说法,幻觉并不神秘,源于预训练阶段的错误。在这一阶段,模型无法区分错误陈述和事实,因为它们只接触到正面例子。然而,研究人员指出,即使所有预训练数据都被标记为真或假,这种错误仍然不可避免。
这些错误在后训练阶段持续存在,因为模型的评估方式。简单来说,评估方法倾向于根据准确性对模型进行优先排序和排名,同时惩罚不确定性或弃权。这形成了一种恶性循环,LLM为了在相对较小的评估测试子集中最大化准确性而学会猜测。
我们观察到,现有的主要评估方法过度惩罚不确定性,因此根本问题在于评估方法的不一致。假设模型A是一个正确传达不确定性且从不产生幻觉的对齐模型。模型B与模型A相似,但从不表示不确定性,并在不确定时总是“猜测”。在0-1评分下,模型B将优于A,这是大多数当前基准的基础。
基于这一见解,OpenAI研究人员得出结论,减少幻觉需要重新思考模型的评估方式。一种建议的方法是对自信的错误进行更严厉的惩罚,而对适当表达不确定性的模型给予相对奖励。虽然这一想法已经引起了一些关注,但OpenAI团队采取了更激进的立场:
仅仅增加一些新的不确定性测试是不够的。广泛使用的基于准确性的评估需要更新,以便其评分不鼓励猜测。如果主要的记分板继续奖励幸运的猜测,模型将继续学习猜测。修正记分板可以扩大幻觉减少技术的采用,无论是新开发的还是先前研究的。
事实上,OpenAI研究人员报告的结果表明,他们在GPT-5-thinking-mini中减少幻觉的努力取得了成功,将错误率从o4-mini的75%降低到26%。然而,正如meshugaas在Hacker News上指出的,这也意味着“超过一半的回答将以‘我不知道’结束。”。正如他们所说,“没有人会使用这样的东西。”
虽然OpenAI研究人员表示他们有信心可以避免幻觉,但他们承认,由于幻觉的多面性,对于幻觉的确切定义尚无共识。
他们的乐观态度被LLM拟人化的批评者所抑制。在Hacker News上didibus强调了将LLM错误标记为幻觉的营销动机并建议“如果你停止将它们拟人化,回到它们作为预测模型的实际本质,那么预测可能出错也就不足为奇了。”
在LLM幻觉争论的一端是ThoughtWorks的CTO Rebecca Parsons。Martin Fowler报道说,她认为LLM幻觉不是错误,而是一种特性:
LLM所做的一切就是产生幻觉,只是我们发现其中一些有用。
作为对LLM幻觉争论的最终观点,Gary Marcus强调,虽然LLM模仿人类语言的结构,但它们没有现实感,它们对自身输出的表面理解使得它们无法对其进行事实核查。