三星研究人员开发微型AI模型,在推理难题上超越大型语言模型

2025年10月11日 由 佚名 发表 98 0


三星电子有限公司的研究人员开发了一种微型人工智能模型,在某些“推理”任务中表现出色,挑战了业界长期以来“大即是好”的观念。


本周发布的微型递归模型(TRM)仅有700万个参数,远少于大多数其他AI模型。然而,它在解决诸如“数独”之类的复杂推理难题时,表现优于强大的大型语言模型,如谷歌公司的Gemini 2.5 Pro。


亚历克西娅·乔利科尔-马丁诺是一位高级研究员,在三星先进技术研究院蒙特利尔AI实验室工作。她在arXiv上发表了一篇论文,展示了如何通过巧妙的设计比单纯增加AI模型的参数数量更有效。该模型使用了一种特殊的“递归推理”过程,使其能够“循环”思考,反复解决同一问题以改进其答案。


这篇题为“少即是多:使用微型网络进行递归推理”的论文揭示了TRM是如何专门设计来解决逻辑难题和推理挑战的。虽然它不能像其他模型那样与人类聊天、写故事或创建图像,但其专注的设计使其能够以更高的准确性解决一些非常困难的问题,超越其更大的对手。


例如,TRM在Sudoku-Extreme上达到了87%的准确率,这是一个挑战AI模型完成多个“数独”难题的基准。它还在Maze-Hard上获得了85%的得分,该任务要求模型以最快的速度穿越复杂的迷宫。在ARC-AGI-1和ARC-AGI-2基准测试中,它分别获得了45%和8%的得分,这些测试由更抽象的推理难题组成,旨在测试“通用智能”。


在这些任务中,TRM的表现超过了更大的模型。例如,Gemini 2.5 Pro在ARC-AGI-2测试中仅得分4.9%,而OpenAI的o3-mini-high仅得分3%,DeepSeek Ltd.的R1仅达到1.3%,Anthropic PBC的Claude 3.7仅能获得0.7%的得分。TRM实现这一点所用的参数不到最强大的大型语言模型的0.01%。


递归推理循环

三星的研究人员没有构建一个大型神经网络,而是采用了递归技术,这也是人类可以使用的一种方法。基本上,模型查看其答案并自问:“这个答案好吗?如果不好,我能想出更好的答案吗?”然后它尝试再次解决难题,改进其答案,并重复这一过程直到满意为止。


为此,TRM保持两个短期记忆——它记住当前的解决方案,并创建一种便笺来记录尝试改进的中间步骤。在每一步,模型通过审查任务、当前解决方案及其先前的笔记来更新便笺,然后基于这些信息生成改进的输出。


它多次重复这个循环,逐步改进其答案,消除了需要数十亿参数才能处理的冗长推理链的需求。相反,只需要一个由几百万个参数组成的小型网络。


研究人员在论文中表示,TRM被编程为“递归地改进潜在和输出状态,而不假设收敛。”这意味着模型不会过早地定下答案,而是允许其不断重复循环,直到无法再改进其输出。


它使用一种“自适应停止”技术,允许其自行判断何时停止,防止无限运行。模型还采用深度监督,这意味着它可以在推理过程的多个步骤获得反馈,而不仅仅是在最后。这有助于模型更有效地学习,作者表示。


少即是多可能是个大事

乔利科尔-马丁诺在一篇博客文章中表示这项研究意义重大,因为它表明小型、高度针对性的模型可以在狭窄、结构化的推理任务上取得优异的结果,这可能是对更广泛的AI行业的重大进展。


显而易见的好处是,它使强大的AI系统更易于访问。拥有数十亿甚至数万亿参数的最大LLM只能在庞大的专用且昂贵的图形处理单元集群上运行。这些消耗大量能源,这意味着只有少数富有的公司和资金充足的大学可以进行实验。但像TRM这样的模型,只需几百万个参数,就可以在普通硬件上运行,能耗更低。


这可能为更多的大学、初创公司和独立开发者打开大门,让他们能够实验先进的AI模型并加速创新。


尽管如此,乔利科尔-马丁诺的团队指出,他们的发现并不意味着LLM已经过时。TRM只能在处理定义明确的网格问题时有效运作,不适合开放式、基于文本或多模态任务。尽管如此,它代表了一种有前途的发展,研究人员计划进行进一步实验,尝试将递归学习模型适应新领域。


文章来源:https://siliconangle.com/2025/10/09/samsung-researchers-create-tiny-ai-model-shames-biggest-llms-reasoning-puzzles/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消