英文

XLM-RoBERTa(大型模型)

XLM-RoBERTa模型是在100种语言的2.5TB过滤后的CommonCrawl数据上进行预训练的。它是由Conneau等人在论文 Unsupervised Cross-lingual Representation Learning at Scale 中提出并首次发布的。

声明:发布XLM-RoBERTa的团队没有为该模型编写模型卡片,因此此模型卡片是由Hugging Face团队编写的。

模型描述

XLM-RoBERTa是RoBERTa的多语言版本。它是在100种语言的2.5TB过滤后的CommonCrawl数据上进行预训练的。

RoBERTa是一个基于transformers框架的模型,以无监督的方式在大型语料库上进行预训练。这意味着它只使用原始文本进行预训练,而没有任何人工标注(这就是为什么它可以使用大量的公开数据),使用自动过程从这些文本中生成输入和标签。

更准确地说,它是使用遮盖语言建模(MLM)目标进行预训练的。模型会对一个句子进行处理,随机遮盖掉输入句子中15%的单词,然后将整个遮盖句子输入模型,并预测被遮盖的单词。这与传统的循环神经网络(RNNs)通常逐个词见的方式以及基于自回归模型(如GPT)内部遮盖未来令牌的方式是不同的。这使得模型可以学习句子的双向表示。

通过这种方式,模型学习了100种语言的内部表示,可以用于提取对下游任务有用的特征:例如,如果你有一个带有标签的句子数据集,你可以使用XLM-RoBERTa模型生成的特征作为输入训练一个标准分类器。

使用意图和限制

你可以使用原始模型进行遮盖语言建模,但主要是用于在下游任务上进行微调。请查看 model hub 以寻找您感兴趣的任务上进行微调的版本。

请注意,该模型主要用于在使用整个句子(可能是遮盖的)进行决策的任务上进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应该查看GPT2之类的模型。

使用方法

您可以使用此模型直接进行遮盖语言建模流水线:

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='xlm-roberta-large')
>>> unmasker("Hello I'm a <mask> model.")

[{'score': 0.10563907772302628,
  'sequence': "Hello I'm a fashion model.",
  'token': 54543,
  'token_str': 'fashion'},
 {'score': 0.08015287667512894,
  'sequence': "Hello I'm a new model.",
  'token': 3525,
  'token_str': 'new'},
 {'score': 0.033413201570510864,
  'sequence': "Hello I'm a model model.",
  'token': 3299,
  'token_str': 'model'},
 {'score': 0.030217764899134636,
  'sequence': "Hello I'm a French model.",
  'token': 92265,
  'token_str': 'French'},
 {'score': 0.026436051353812218,
  'sequence': "Hello I'm a sexy model.",
  'token': 17473,
  'token_str': 'sexy'}]

以下是如何在PyTorch中使用此模型获取给定文本的特征的示例:

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-large")

# prepare input
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-1911-02116,
  author    = {Alexis Conneau and
               Kartikay Khandelwal and
               Naman Goyal and
               Vishrav Chaudhary and
               Guillaume Wenzek and
               Francisco Guzm{\'{a}}n and
               Edouard Grave and
               Myle Ott and
               Luke Zettlemoyer and
               Veselin Stoyanov},
  title     = {Unsupervised Cross-lingual Representation Learning at Scale},
  journal   = {CoRR},
  volume    = {abs/1911.02116},
  year      = {2019},
  url       = {http://arxiv.org/abs/1911.02116},
  eprinttype = {arXiv},
  eprint    = {1911.02116},
  timestamp = {Mon, 11 Nov 2019 18:38:09 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}