英文

DeBERTaV3:使用ELECTRA风格的预训练和梯度解缠共享来改进DeBERTa

DeBERTa 使用解缠注意力和增强的遮罩解码器改进了BERT和RoBERTa模型。通过这两个改进,DeBERTa在大多数NLU任务中表现优于RoBERTa,并使用80GB的训练数据。

DeBERTa V3 中,我们进一步改进了DeBERTa的效率,使用了ELECTRA风格的预训练和梯度解缠共享。与DeBERTa相比,我们的V3版本在下游任务的模型性能显著提高。您可以在我们的 paper 中找到有关新模型的更多技术细节。

请查看 official repository 以获取更多的实现细节和更新。

DeBERTa V3 xsmall模型具有12层和384的隐藏大小。它只有22M的骨干参数,嵌入层中有128K个令牌的词汇表,引入48M个参数。这个模型是使用160GB的数据训练的,就像DeBERTa V2一样。

在NLU任务上进行微调

我们展示了在SQuAD 2.0和MNLI任务中的开发结果。

Model Vocabulary(K) Backbone #Params(M) SQuAD 2.0(F1/EM) MNLI-m/mm(ACC)
RoBERTa-base 50 86 83.7/80.5 87.6/-
XLNet-base 32 92 -/80.2 86.8/-
ELECTRA-base 30 86 -/80.5 88.8/
DeBERTa-base 50 100 86.2/83.1 88.8/88.5
DeBERTa-v3-large 128 304 91.5/89.0 91.8/91.9
DeBERTa-v3-base 128 86 88.4/85.4 90.6/90.7
DeBERTa-v3-small 128 44 82.8/80.4 88.3/87.7
DeBERTa-v3-xsmall 128 22 84.8/82.0 88.1/88.3
DeBERTa-v3-xsmall+SiFT 128 22 -/- 88.4/88.5
使用HF transformers进行微调
#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-xsmall \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 1000 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 4.5e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

引用

如果您发现DeBERTa对您的工作很有用,请引用以下论文:

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}