英文

XLNet (基础尺寸模型)

XLNet 是在英语语言上预训练的模型。它是由杨等人在文章 XLNet: Generalized Autoregressive Pretraining for Language Understanding 中提出的,并于 this repository 首次发布。

免责声明:发布XLNet的团队没有为这个模型编写模型卡片,所以这个模型卡片是由Hugging Face团队编写的。

模型描述

XLNet 是一种新的无监督语言表示学习方法,基于一种新颖的广义排列语言建模目标。此外,XLNet采用了Transformer-XL作为骨干模型,在涉及长上下文的语言任务中表现出色。总体而言,XLNet在包括问题回答,自然语言推理,情感分析和文档排序在内的各种下游语言任务中实现了最先进的结果。

使用目的和限制

该模型主要用于在下游任务上进行微调。请参考 model hub 寻找您感兴趣的任务上的微调版本。

请注意,该模型主要用于在使用整个句子(可能被屏蔽)进行决策的任务上进行微调,例如序列分类,标记分类或问题回答。对于文本生成等任务,您应该查看像GPT2这样的模型。

用法

以下是如何使用此模型在PyTorch中获取给定文本的特征:

from transformers import XLNetTokenizer, XLNetModel

tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')
model = XLNetModel.from_pretrained('xlnet-base-cased')

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-1906-08237,
  author    = {Zhilin Yang and
               Zihang Dai and
               Yiming Yang and
               Jaime G. Carbonell and
               Ruslan Salakhutdinov and
               Quoc V. Le},
  title     = {XLNet: Generalized Autoregressive Pretraining for Language Understanding},
  journal   = {CoRR},
  volume    = {abs/1906.08237},
  year      = {2019},
  url       = {http://arxiv.org/abs/1906.08237},
  eprinttype = {arXiv},
  eprint    = {1906.08237},
  timestamp = {Mon, 24 Jun 2019 17:28:45 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1906-08237.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}