模型:

microsoft/cocolm-base

英文

COCO-LM模型的模型卡: 用于语言模型预训练的纠正和对比文本序列

模型细节

模型描述

该模型卡包含了在GLUE和SQuAD 2.0基准测试上预训练的COCO-LM模型(base++版本)。

  • 开发者:Microsoft
  • 分享者 [可选]:HuggingFace
  • 模型类型:语言模型
  • 语言:英文
  • 许可证:MIT
  • 相关模型:需要更多信息
    • 父模型:需要更多信息
  • 更多信息的资源:
  • GitHub Repo
  • Associated Paper

用途

直接使用

用于纠正和对比文本序列进行语言模型预训练

下游使用 [可选]

需要更多信息

超出范围的使用

模型不应该用于有意为人们创造敌对或疏远环境。

偏见、风险和局限性

许多研究已经探讨了语言模型的偏见和公平性问题(参见,例如 Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测可能包含对受保护的类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。

建议

用户(包括直接用户和下游用户)应该了解模型的风险、偏见和局限性。需要更多信息以获取进一步的建议。

训练细节

训练数据

详细信息请参见相关的数据集卡片

训练过程

预处理

模型开发者在 associated paper 中提到:

我们使用三个标准的设置,base、base++和large++。Base是BERTBase的训练配置:在维基百科和BookCorpus上进行预训练(16 GB的文本),使用512个令牌序列(125K批次,2048批量大小)的256亿个样本。我们使用与TUPE相同的语料库和32,768个无大小写的BPE词汇表。Base++使用更大的语料库和/或更多的训练步骤对基本大小模型进行训练。根据最近的研究,我们添加了OpenWebText、CC-News和STORIES,总共160 GB的文本,并进行了40亿个样本(使用2048个批量大小)的训练。我们按照UniLMV2的预处理步骤使用64,000个大小写的BPE词汇表。Large++使用了与base++相同的训练语料库,并进行了40亿个样本(2048个批量大小)的预训练。其Transformer配置与BERTLarge相同。

速度、大小、时间

需要更多信息

评估

测试数据、因素和指标

测试数据

GLUE SQuAD 2.0

因素

所有结果均为单任务、单模型微调的结果。

指标

需要更多信息

结果

GLUE微调结果

General Language Understanding Evaluation (GLUE) 基准测试是一系列用于评估和分析自然语言理解系统的句子或句对语言理解任务。

COCO-LM base++和large++模型的GLUE dev集结果如下(5个不同的随机种子的中位数):

Model MNLI-m/mm QQP QNLI SST-2 CoLA RTE MRPC STS-B AVG
COCO-LM base++ 90.2/90.0 92.2 94.2 94.6 67.3 87.4 91.2 91.8 88.6
COCO-LM large++ 91.4/91.6 92.8 95.7 96.9 73.9 91.0 92.2 92.7 90.8

COCO-LM base++和large++模型的GLUE测试集结果如下(没有集成、针对特定任务的技巧等):

Model MNLI-m/mm QQP QNLI SST-2 CoLA RTE MRPC STS-B AVG
COCO-LM base++ 89.8/89.3 89.8 94.2 95.6 68.6 82.3 88.5 90.3 87.4
COCO-LM large++ 91.6/91.1 90.5 95.8 96.7 70.5 89.2 88.4 91.8 89.3

SQuAD 2.0微调结果

Stanford Question Answering Dataset (SQuAD) 是一个阅读理解数据集,包含由众包工作者提出的关于一组维基百科文章的问题,每个问题的答案都是对应阅读段落中的文本片段或跨度,或者问题可能无法回答。

COCO-LM base++和large++模型的SQuAD 2.0 dev集结果如下(5个不同的随机种子的中位数):

Model EM F1
COCO-LM base++ 85.4 88.1
COCO-LM large++ 88.2 91.0

模型检查

模型开发者在 associated paper 中指出:

架构。去除相对位置编码(Rel-Pos)可以在某些任务上得到更好的结果,但对MNLI的影响非常大。使用相同的隐藏维度(768)的浅层辅助网络比ELECTRA的12层、256隐藏维度的生成器更有效。

这项工作的一个局限性是对比对的构造仅使用简单的裁剪和MLM替换。最近的研究表明,在微调语言模型方面,先进的数据增强技术非常有效 [16, 38, 51]。未来的研究方向是探索更好的构建语言模型预训练中的对比对的方法。

环境影响

可以使用 Machine Learning Impact calculator 中提出的 Lacoste et al. (2019) 来估计碳排放量。

  • 硬件类型:需要更多信息
  • 使用小时数:需要更多信息
  • 云提供商:需要更多信息
  • 计算区域:需要更多信息
  • 排放的碳量:需要更多信息

技术规格[可选]

模型架构和目标

模型开发者在 associated paper 中指出:

模型架构。我们的base/base++模型采用了BERTBase架构:12层Transformer,768个隐藏层大小,加上T5相对位置编码。我们的large++模型与BERTLarge相同,具有24层和1024个隐藏层大小,加上T5相对位置编码。我们的辅助网络使用相同的隐藏层大小,但是在base/base++中使用了一个4层Transformer,在large++中使用了一个6层Transformer。在生成XMLM时,我们禁用了辅助模型中的dropout。

计算基础架构

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX:

如果您对您的研究有用,请引用以下论文:

@inproceedings{meng2021cocolm,
  title={{COCO-LM}: Correcting and contrasting text sequences for language model pretraining},
  author={Meng, Yu and Xiong, Chenyan and Bajaj, Payal and Tiwary, Saurabh and Bennett, Paul and Han, Jiawei and Song, Xia},
  booktitle={Conference on Neural Information Processing Systems},
  year={2021}
}

术语表 [可选]

需要更多信息

更多信息 [可选]

需要更多信息

模型卡作者 [可选]

Microsoft与Ezi Ozoani和HuggingFace团队合作

模型卡联系方式

需要更多信息

如何开始使用该模型

使用下面的代码可以开始使用该模型。

点击展开
 
from transformers import AutoModel
 
model = AutoModel.from_pretrained("microsoft/cocolm-base")