微软研究人员表示：并非所有Token都是必要的

2024年04月15日由 samoyed 发表 399 0

微软的研究人员对语言模型（LM）预训练的传统方法提出了挑战，该方法对训练语料库中的所有token统一应用下一个token预测损失。相反，他们提出了一个名为 RHO-1 的新语言模型，它利用选择性语言建模（SLM）。

microsoft-AI-skills

这种方法选择性地训练有用的token，这些token与理想的分布一致，而不是试图预测每一个下一个token。

他们引入了 Rho-Math-v0.1 模型，并有 Rho-Math-1B 和 Rho-Math-7B，在 MATH 数据集上分别实现了 15.6% 和 31.0% 的few-shot 准确率——与 DeepSeekMath 匹配，但预训练token仅有 3%。

Rho-Math-1B-Interpreter 是第一个在 MATH 上实现超过 40% 准确率的 1B LLM。

Rho-Math-7B-Interpreter 在 MATH 数据集上实现了 52% 的准确率，仅使用了 69k 样本进行微调。

RHO-1 的 SLM 方法涉及使用参考模型对预训练token进行评分，并在具有更高剩余损失的token上训练语言模型，专注于损失。这种选择过程使 RHO-1 能够在持续预训练 15B OpenWebMath 语料库时，将 9 个数学任务的 few-shot 准确率提高高达 30%。

在微调后，该模型在 MATH 数据集上也实现了最先进的结果，并且在在 80B 通用token上预训练时，在 15 个不同任务中平均提高了 6.8%。

传统训练方法通常使用启发式和分类器在文档级别过滤数据以提高数据质量和模型性能。然而，即使是高质量的数据集也可能包含对训练产生负面影响的噪音token。

SLM 方法直接解决了这个问题，它专注于token级别并在预训练期间取消了不需要的token的损失。

SLM 首先在高质量语料库上训练参考语言模型，以建立用于根据所需分布给token评分的效用度量。在参考模型和训练模型之间选择具有高剩余损失的token用于训练，将语言模型专注于对下游应用最有益的那些token。

在研究中，SLM 在预训练期间选定的token与数学密切相关，有效地将模型聚焦于原始语料库的相关部分。通过检查各个检查点的token过滤情况，研究人员发现，后期检查点选定的token在训练后期的困惑度更高，在早期阶段的困惑度较低。

讨论部分着重介绍了包括可能将 SLM 推广到数学领域以外的未来工作、技术扩展到更大模型和数据集的可扩展性，以及探究是否需要训练参考模型来评分token。

对 SLM 的改进可能包括重新加权token而非选择它们，使用多个参考模型以减少过拟合。

SLM 可能扩展到有监督的微调，以解决数据集中的噪声和分布不匹配，并可能通过训练强调有用性、真实性和无害性的参考模型，以在预训练期间获得一个天然对齐的基础模型，用于对齐任务。

文章来源：https://analyticsindiamag.com/not-all-tokens-are-what-you-need-say-microsoft-researchers/

标签：

微软

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇大型语言模型的决策能力研究及前景

下一篇苹果iOS 18的首批AI功能将完全运行于设备端

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市