模型:

xlm-mlm-xnli15-1024

任务:

填充掩码

类库:

PyTorch TensorFlow Transformers

语言:

multilingual

其他:

xlm AutoTrain Compatible

预印本库:

arxiv:1901.07291 arxiv:1910.09700

许可:

cc-by-nc-4.0

模型介绍文件清单

英文

xlm-mlm-xnli15-1024

模型详情

XLM模型是由Guillaume Lample和 Alexis Conneau于 Cross-lingual Language Model Pretraining 年提出的。xlm-mlm-xnli15-1024是使用屏蔽语言模型（MLM）目标在英语NLI数据集上进行了微调的transformer预训练模型。模型开发人员评估了模型在所有15种XNLI语言上进行正确预测的能力（有关XNLI的更多信息，请参见 XNLI data card ）。

模型描述

开发者：Guillaume Lample, Alexis Conneau，详见 associated paper
模型类型：语言模型
语言（NLP）：英文；在15种语言上进行了评估（详见 XNLI data card ）
许可协议：CC-BY-NC-4.0
相关模型： XLM models
了解更多信息的资源：

使用方法

直接使用

该模型是一个语言模型。可以用于跨语言文本分类。虽然该模型基于英文文本数据进行了微调，但模型在其他14种语言中分类句子的能力已经得到评估（详见评估）。

下游使用

此模型可用于与不同语言的自然语言推理相关的下游任务。详见 associated paper 了解更多信息。

范围外使用

不应该使用模型有意创建对人有敌意或让人产生疏远感的环境。

偏见、风险和限制

已经有大量的研究探讨了语言模型的偏见和公平性问题（参见 Sheng et al. (2021) 和 Bender et al. (2021) 等）。

建议

用户（包括直接用户和下游用户）应该意识到模型的风险、偏见和限制。

训练详情

训练详情从 associated paper 提取而来。有关链接、引用和更多细节，请参见论文。还请参阅相关的 GitHub Repo 以获取更多详细信息。

训练数据

模型开发者写道：

我们使用WikiExtractor2从维基百科转储中提取原始句子，并将它们用作CLM和MLM目标的单语数据。对于TLM目标，我们仅使用涉及英语的平行数据，类似于Conneau等人的方法（2018b）。

具体而言，我们对法语、西班牙语、俄语、阿拉伯语和中文使用MultiUN（Ziemski等人，2016），对印地语使用IIT孟买语料库（Anoop等人，2018）。
我们从OPUS 3网站Tiedemann（2012）中提取了以下语料库：德语、希腊语和保加利亚语的EUbookshop语料库，土耳其语、越南语和泰语的OpenSubtitles 2018，乌尔都语和斯瓦希里语的Tanzil，斯瓦希里语的GlobalVoices。
对于中文、日语和泰语，我们分别使用Chang等人（2008）的分词器、Kytea4的分词器和PyThaiNLP5的分词器。
对于其他所有语言，我们使用Moses提供的分词器（Koehn等人，2007），必要时使用默认的英文分词器。

在微调中，开发者使用了英语NLI数据集（详见 XNLI data card ）。

训练过程

预处理

模型开发者写道：

我们使用fastBPE来学习BPE代码并将单词分割为子单词单元。BPE代码是在从所有语言中采样的句子的连接上学习的，遵循第3.1节中提出的方法。

速度、大小、时间

模型开发者写道：

我们使用带有1024隐藏单元、8个头、GELU激活（Hendrycks和Gimpel，2016）、丢弃率为0.1和学习的位置嵌入的Transformer架构。我们使用Adam优化器（Kingma和Ba，2014）、线性预热（Vaswani等人，2017）和学习率从10^−4变化到5.10^−4进行训练。

对于CLM和MLM目标，我们使用256个标记流和大小为64的迷你批次。与Devlin等人（2018）不同，迷你批次中的序列可以包含多于两个连续句子，如第3.2节所述。对于TLM目标，我们采样长度相似的句子，生成4000个标记的迷你批次。我们使用语言的平均困惑度作为训练的停止准则。对于机器翻译，我们只使用了6层，并创建了2000个标记的迷你批次。

在进行XNLI微调时，我们使用大小为8或16的迷你批次，并将句子长度剪切为256个单词。我们使用80k个BPE分割和一个包含XNLI语言维基百科的词汇表进行12层模型的训练。我们使用范围在5.10^−4到2.10^−4之间的数值对Adam优化器的学习率进行采样，并使用包含20000个随机样本的小型评估周期。我们使用变换器最后一层的第一个隐藏状态作为随机初始化的最后线性分类器的输入，并微调所有参数。在我们的实验中，使用最大池化或平均池化比使用第一个隐藏状态效果更好。

我们使用PyTorch（Paszke等人，2017）实现所有模型的训练，并在语言建模任务中使用64个Volta GPU，在MT任务中使用8个GPU。我们使用float16操作加快训练速度并减少模型的内存使用。

评估

测试数据、因素和指标

在将模型在英语NLI数据集上进行微调后，模型开发者使用XNLI数据和测试准确性作为度量标准评估了模型在15种XNLI语言中进行正确预测的能力。详见 associated paper 以获取更多详细信息。

结果

Language	en	fr	es	de	el	bg	ru	tr	ar	vi	th	zh	hi	sw	ur
Accuracy	83.2	76.5	76.3	74.2	73.1	74.0	73.1	67.8	68.5	71.2	69.2	71.9	65.7	64.6	63.4

环境影响

可以使用 Machine Learning Impact calculator 来估计碳排放量，该信息在 Lacoste et al. (2019) 中介绍。

硬件类型：64个Volta GPU
使用时长：需要更多信息
云服务提供商：需要更多信息
计算地区：需要更多信息
排放的碳：需要更多信息

技术规格

详细信息来自 associated paper 。有关链接、引用和更多细节，请参见论文。还请参阅相关的 GitHub Repo 以获取更多详细信息。

模型架构和目标

xlm-mlm-xnli15-1024是使用屏蔽语言模型（MLM）目标在英语NLI数据集上进行了微调的transformer预训练模型。对于MLM目标，开发者写道：

我们还考虑了Devlin等人（2018）的屏蔽语言建模（MLM）目标，也被称为Cloze任务（Taylor, 1953）。根据Devlin等人（2018）的方法，我们随机从文本流中抽取15%的BPE标记，80%的时间用[MASK]标记替换，10%的时间用随机标记替换，10%的时间保持不变。我们的方法与Devlin等人（2018）的方法的差异包括使用任意数量句子的文本流（截断为256个标记）而不是句对。为了解决稀有标记和频繁标记（例如标点符号或停用词）之间的不平衡，我们还使用了类似于Mikolov等人（2013b）的方法来对频繁输出进行子采样：文本流中的标记根据多项分布进行采样，其权重与其倒数频率的平方根成比例。我们的MLM目标示例如图1所示。

计算基础设施

硬件和软件

开发者写道：

我们使用PyTorch（Paszke等人，2017）实现所有模型，并在语言建模任务中使用64个Volta GPU，MT任务中使用8个GPU。我们使用float16操作加快训练速度并减少模型的内存使用。

引用

BibTeX：

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}

APA：

Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

模型卡片作者

本模型卡片由Hugging Face团队撰写。

如何开始使用该模型

该模型使用了语言嵌入来指定推理时使用的语言。详见 Hugging Face Multilingual Models for Inference docs 以获取更多详细信息。

作者:

None

数据集大小:

2.58 GB

xlm-mlm-xnli15-1024

目录

模型详情

模型描述

使用方法

直接使用

下游使用

范围外使用

偏见、风险和限制

建议

训练详情

训练数据

训练过程

预处理

速度、大小、时间

评估

测试数据、因素和指标

结果

环境影响

技术规格

模型架构和目标

计算基础设施

硬件和软件

引用

模型卡片作者

如何开始使用该模型