英文

roberta-large-mnli

目录

  • 模型详情
  • 如何开始使用该模型
  • 应用
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用信息
  • 模型卡片作者

模型详情

模型描述:roberta-large-mnli是在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了精调的 RoBERTa large model 模型。该模型是在英语文本上使用掩码语言建模(MLM)目标进行预训练的。

如何开始使用该模型

使用以下代码开始使用该模型。可以使用zero-shot-classification pipeline加载模型,如下所示:

from transformers import pipeline
classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')

然后,您可以使用该pipeline对序列进行分类,可以指定任何类名。例如:

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels)

应用

直接使用

该精调模型可用于零样本分类任务,包括零样本句对分类(请参阅 GitHub repo 获取示例)和零样本序列分类。

不当使用和超范围使用

该模型不应被用于故意创造敌对或疏远人的环境。此外,该模型的训练目标不是为了成为关于人或事件事实或真实的代表,因此使用该模型生成此类内容超出了该模型的能力范围。

风险、限制和偏见

内容警告:读者应注意,本节内容包含令人不安、冒犯性和可能传播历史和现实偏见的内容。

已进行大量研究以探讨语言模型的偏见和公平性问题(参见 Sheng et al. (2021) Bender et al. (2021) 等)。 RoBERTa large model card 指出:“用于该模型的训练数据包含很多来自互联网的非过滤内容,远非中立。”

该模型生成的预测可能包含针对受保护类别、身份特征和敏感的社会和职业群体的令人不安和有害的刻板印象。例如:

sequence_to_classify = "The CEO had a strong handshake."
candidate_labels = ['male', 'female']
hypothesis_template = "This text speaks about a {} profession."
classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)

用户(包括直接和下游用户)应意识到该模型的风险、偏见和限制。

训练

训练数据

该模型是在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了精调。更多信息请参见 MNLI data card

RoBERTa large model card 所述:

RoBERTa模型的预训练采用了五个数据集的结合:

  • BookCorpus ,一个包含11,038本未发表书籍的数据集;
  • English Wikipedia (不包括列表、表格和标题);
  • CC-News ,包含从2016年9月至2019年2月期间抓取的6300万篇英语新闻文章的数据集。
  • OpenWebText ,是对用于训练GPT-2的WebText数据集的开源重新创建;
  • Stories ,包含CommonCrawl数据的一个子集,经过筛选以匹配Winograd模式的故事样式。

这些数据集总共包含160GB的文本。

更多信息,请参见 bookcorpus data card wikipedia data card

训练过程预处理

RoBERTa large model card 所述:

文本使用基于字节的一种Byte-Pair Encoding(BPE)进行标记化,并使用50,000个词汇量。模型的输入采用512个连续令牌的片段,可以跨越多个文档。新文档的开头用标记,结尾用标记

每个句子的屏蔽过程的详细信息如下:

  • 对15%的令牌进行屏蔽。
  • 在80%的情况下,被屏蔽的令牌被替换为。
  • 在10%的情况下,被屏蔽的令牌随机被(不同于替换的令牌)替换。
  • 在剩下的10%的情况下,被屏蔽的令牌保持不变。

与BERT不同,屏蔽过程是在预训练期间动态进行的(例如,它在每个时期都会发生变化,而不是固定的)。

预训练

RoBERTa large model card 所述:

该模型在1024个V100 GPU上训练了500K个步骤,批次大小为8K,序列长度为512。使用的优化器是Adam,学习率为4e-4,β1 = 0.9,β2 = 0.98,ε = 1e-6,权重衰减为0.01,学习率预热步骤数为30,000,学习率线性衰减。

评估

以下评估信息从相关的 GitHub repo for RoBERTa 中提取。

测试数据、因素和指标

模型开发者报告,该模型在以下任务和数据集上进行了评估,并使用列出的指标:

  • 数据集: GLUE (Wang et al., 2019) 的一部分,通用语言理解评估基准,这是一组用于评估自然语言理解系统的9个数据集。具体而言,模型在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了评估。有关详细信息,请参见 GLUE data card Wang et al. (2019)

    • 任务:NLI。 Wang et al. (2019) 描述了MNLI的推理任务如下:

      《多源流体的自然语言推理语料库》(Multi-Genre Natural Language Inference Corpus) (Williams et al., 2018) 是一组众包标记的句子对,带有文本蕴含注释。给定一个前提句子和一个假设句子,任务是预测前提是否蕴含假设(entailment),否定假设(contradiction),或者都不是(neutral)。前提句子来自十个不同的来源,包括转录的演讲、小说和政府报告。我们使用了标准测试集,并从作者处获得了私有标签,并在匹配(领域内)和不匹配(跨领域)两个部分上进行评估。我们还使用并推荐SNLI语料库 (Bowman et al., 2015) 作为55万个辅助训练数据示例。

    • 指标:准确率
  • 数据集: XNLI (Conneau et al., 2018) ,将 Multi-Genre Natural Language Inference (MNLI) 语料库扩展到15种语言:英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。有关详细信息,请参见 XNLI data card Conneau et al. (2018)

    • 任务:翻译测试(例如,使用模型将其他语言的输入句子翻译为训练语言)
    • 指标:准确率
结果

GLUE测试结果(开发集,单模型,单一任务微调):MNLI准确率为90.2

XNLI测试结果:

Task en fr es de el bg ru tr ar vi th zh hi sw ur
91.3 82.91 84.27 81.24 81.74 83.13 78.28 76.79 76.64 74.17 74.05 77.5 70.9 66.65 66.81

环境影响

可以使用 Machine Learning Impact calculator 中介绍的方法估算碳排放量。我们根据 associated paper 提供的硬件类型和使用时间来计算。

  • 硬件类型:1024个V100 GPU
  • 使用时间:24小时(一天)
  • 云提供商:未知
  • 计算区域:未知
  • 排放碳量:未知

技术规格

有关模型架构、目标、计算基础设施和训练细节的详细信息,请参见 associated paper

引用信息

@article{liu2019roberta,
    title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach},
    author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and
              Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and
              Luke Zettlemoyer and Veselin Stoyanov},
    journal={arXiv preprint arXiv:1907.11692},
    year = {2019},
}