微软的一组AI研究人员最新报告称,其开发的小型语言模型Orca-Math在标准化数学测试中表现出色,超过了其他大型模型。该团队已在学术预印本平台arXiv上发布论文,详细介绍了Orca-Math在GSM8K基准测试中的表现,并与知名大型语言模型(LLMs)进行了对比。
大型语言模型,如备受欢迎的ChatGPT,以其卓越的对话能力著称。但鲜为人知的是,它们中的多数也具备解决数学应用题的能力。研究人员通过GSM8K测试集来评估这些模型在这方面的能力,GSM8K包含8500道小学阶段的数学应用题,需要多步骤推理才能解答,同时提供了标准答案。
在这项新研究中,微软的研究团队对Orca-Math进行了测试。Orca-Math是微软另一团队专为解决数学应用题而开发的一款AI应用。他们将Orca-Math的表现与更大的AI模型进行了对比。
微软在其研究博客中指出,ChatGPT等流行的大型语言模型与Orca-Math存在显著差异。大型语言模型庞大而复杂,而Orca-Math作为小型语言模型,其参数数量相对较少,通常在数千或数百万级别,远低于大型语言模型的数十亿或万亿级别。此外,Orca-Math专注于数学问题的解决,无法进行对话或回答其他类型的问题。
尽管与其他小型语言模型相比,Orca-Math的参数数量较多,达到70亿个,但仍远小于大多数知名的大型语言模型。然而,令人惊讶的是,Orca-Math在GSM8K测试中的得分高达86.81%,接近GPT-4-0613的97.0%。相比之下,其他模型如Llama-2的表现并不理想,得分仅为14.6%。
微软透露,Orca-Math之所以取得如此高的分数,是因为它使用了比通用大型语言模型更高质量的训练数据。此外,微软AI团队还开发了一种交互式学习过程,通过教师反馈来不断优化结果。微软团队得出结论,在特定条件下开发的小型语言模型在某些应用上的表现可以与大型语言模型相媲美。