LLM并不像你想象的那么聪明

2023年06月27日 由 Samoyed 发表 312893 0
Transformer模型在处理需要多步骤组合信息的智力任务时很吃力,如解决乘法或逻辑谜题,并且经常通过寻找模式和捷径来解决,而不是真正理解问题的构成。

麻省理工学院最近的一篇论文表明,GPT-4在麻省理工学院的课程中获得了100%的分数,但进一步的调查发现这项研究的问题不完整,并且评估方法有偏差,导致准确性大大降低,论文无效。随着时间的推移,越来越多的研究人员加入了发表LLM论文的潮流,特别是像ChatGPT通过美国医学考试,律师资格考试这样的论文。然而,当同样的基于LLM的聊天机器人被要求解决简单的数学问题或倒拼写像lollipop这样的单词时,它们会产生严重错误。所有的LLM,如GPT-3.5、GPT-4、LLaMA和PaLM 2,在执行这些简单的任务时表现很不理想。



为什么会发生这种情况呢

艾伦人工智能研究所的一篇论文《信仰与命运:Transformer模型组合性方面的限制》,讨论了这些基于Transformer模型的限制。该论文由来自华盛顿大学、南加州大学和芝加哥大学的研究人员撰写,通过关注需要多步骤推理的合成问题,讨论了Transformer语言模型的基本限制。该研究调查了三个有代表性的组合任务:长式乘法、逻辑网格谜题(如爱因斯坦之谜)和一个经典的动态编程问题。

根据微软的研究论文《AGI的火花:GPT-4的早期实验》,这种语言模型代表了人工通用智能(AGI)的早期版本。但科学界似乎对LLM的真正能力存在分歧,这篇论文将揭示它们实际上是如何工作的。

变得越来越笨

为了更好地理解LLM与人类思维过程的异同,研究人员使用了一个图表结构。在这种方法中,人类解决问题的技能可以被认为是一个图结构,其中每个顶点代表一个部分解决方案,而边表示修改这些解的运算符。然后,这个概念框架被推断出来,为理解Transformer模型的推理能力提供了基础。

研究人员随后将ChatGPT、GPT 3和GPT 4等流行的LLM放在多步骤的合成任务上进行测试。他们发现,当利用零训练、少训练和微调时,随着任务复杂性的增加,Transformer模型的性能会下降。虽然用特定任务的数据进行微调可以提高训练领域内的性能,但它不能推广到未见过的例子。即使是用scratchpad进行明确的训练也不能使模型有效地学习组件操作。

Transformer模型的自回归特性对全面理解任务提出了根本性的挑战。这些发现强调了在Transformer模型结构和培训方法方面取得进步的迫切需要。

Meta首席数据科学家Yan LeCun表示:“自回归LLM就像一个以指数方式远离正确答案的过程。”

当您使用这些模型生成回复时,每个生成的单词都有可能不是正确答案,随着生成的单词越来越多,整个回复正确的概率会呈指数级下降,因为错误会累积。

从人类反馈中强化学习(RLHF)可能会减少错误的概率,但它们并没有改变令牌生产仍然是自动回归的,并受到指数发散的影响。他认为不可能完全消除这个问题,因为这个过程仍然是自动回归的,也就是说,每个令牌都是根据以前的令牌生成的。

Transformer模型擅长单步推理,但很难将其能力扩展到更复杂的场景。然而,这篇论文背后的科学家也提到了一些训练方法,这些方法可能会帮助LLM突破这个看似牢不可破的界限。

未来发展

研究人员已经尝试了不同的方法来提高Transformer模型在合成任务中的表现,比如微调模型或教它们明确的推理步骤。然而,这些方法并没有达到100%的准确性,特别是在模型遇到新类型问题的域外设置中。

即使整体响应不正确,Transformer模型有时也会产生部分正确的答案,因为模型可以学习任务分布中的特定模式。这让它们在不了解任务要求的情况下进行猜测。相对信息增益的概念有助于预测Transformer模型可能学习的模式。

主要问题是,Transformer模型倾向于将多步骤推理减少为线性化的子图匹配,依赖于模式匹配而不是综合推理,这使得它在需要计划和引入多个步骤来正确推理的任务中表现很糟糕。因此,可以说,Transformer模型在训练过程中经常记住特定的操作,尽管计算不正确,但仍会产生正确的输出。

LLM应该被取代吗?

虽然Transformer模型在单步推理任务中表现良好,但在有效地组合多个步骤时,它们会遇到困难。模型在知识的泛化上也有困难,包括易难泛化和数学积分泛化,实现完全掌握和精确泛化仍然是困难的。

Transformer模型虽然是强大的语言模型,但在执行复杂的组合推理时却表现出局限性。他们对模式、记忆和单步操作的依赖阻碍了他们处理具有挑战性任务的有效性。

该研究论文强调了推进Transformer模型架构和培训方法的重要性,以解决这些限制,并使未来在组合推理方面取得突破。在这一领域的进一步探索是释放AGI全部潜力的关键。

 

来源:https://analyticsindiamag.com/llms-are-not-as-smart-as-you-think/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消