微软研究人员表示:并非所有Token都是必要的

2024年04月15日 由 samoyed 发表 86 0

微软的研究人员对语言模型(LM)预训练的传统方法提出了挑战,该方法对训练语料库中的所有token统一应用下一个token预测损失。相反,他们提出了一个名为 RHO-1 的新语言模型,它利用选择性语言建模(SLM)。


microsoft-AI-skills


这种方法选择性地训练有用的token,这些token与理想的分布一致,而不是试图预测每一个下一个token。


他们引入了 Rho-Math-v0.1 模型,并有 Rho-Math-1B 和 Rho-Math-7B,在 MATH 数据集上分别实现了 15.6% 和 31.0% 的few-shot 准确率——与 DeepSeekMath 匹配,但预训练token仅有 3%。


Rho-Math-1B-Interpreter 是第一个在 MATH 上实现超过 40% 准确率的 1B LLM。


Rho-Math-7B-Interpreter 在 MATH 数据集上实现了 52% 的准确率,仅使用了 69k 样本进行微调。


RHO-1 的 SLM 方法涉及使用参考模型对预训练token进行评分,并在具有更高剩余损失的token上训练语言模型,专注于损失。这种选择过程使 RHO-1 能够在持续预训练 15B OpenWebMath 语料库时,将 9 个数学任务的 few-shot 准确率提高高达 30%。


在微调后,该模型在 MATH 数据集上也实现了最先进的结果,并且在在 80B 通用token上预训练时,在 15 个不同任务中平均提高了 6.8%。


传统训练方法通常使用启发式和分类器在文档级别过滤数据以提高数据质量和模型性能。然而,即使是高质量的数据集也可能包含对训练产生负面影响的噪音token。


SLM 方法直接解决了这个问题,它专注于token级别并在预训练期间取消了不需要的token的损失。


SLM 首先在高质量语料库上训练参考语言模型,以建立用于根据所需分布给token评分的效用度量。在参考模型和训练模型之间选择具有高剩余损失的token用于训练,将语言模型专注于对下游应用最有益的那些token。


在研究中,SLM 在预训练期间选定的token与数学密切相关,有效地将模型聚焦于原始语料库的相关部分。通过检查各个检查点的token过滤情况,研究人员发现,后期检查点选定的token在训练后期的困惑度更高,在早期阶段的困惑度较低。


讨论部分着重介绍了包括可能将 SLM 推广到数学领域以外的未来工作、技术扩展到更大模型和数据集的可扩展性,以及探究是否需要训练参考模型来评分token。


对 SLM 的改进可能包括重新加权token而非选择它们,使用多个参考模型以减少过拟合。


SLM 可能扩展到有监督的微调,以解决数据集中的噪声和分布不匹配,并可能通过训练强调有用性、真实性和无害性的参考模型,以在预训练期间获得一个天然对齐的基础模型,用于对齐任务。


文章来源:https://analyticsindiamag.com/not-all-tokens-are-what-you-need-say-microsoft-researchers/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消