microsoft/mdeberta-v3-base | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

microsoft/mdeberta-v3-base

任务:

填充掩码

类库:

PyTorch TensorFlow Transformers

语言:

multilingual

其他:

deberta-v2 deberta deberta-v3 mdeberta

预印本库:

arxiv:2006.03654 arxiv:2111.09543

许可:

mit

模型介绍文件清单

英文

DeBERTaV3：使用ELECTRA风格的预训练和梯度分解嵌入共享改进DeBERTa

DeBERTa 通过解耦的注意力和增强的掩码解码器改进了BERT和RoBERTa模型。借助这两个改进，DeBERTa在大多数NLU任务中以80GB的训练数据表现优于RoBERTa。

在 DeBERTa V3 中，我们进一步通过使用ELECTRA风格的预训练和梯度分解嵌入共享提高了DeBERTa的效率。与DeBERTa相比，我们的V3版本在下游任务中显著提高了模型性能。您可以从我们的 paper 中找到有关新模型的更多技术细节。

有关更多实现细节和更新，请查看 official repository 。

mDeBERTa是DeBERTa的多语言版本，采用与DeBERTa相同的结构，并使用CC100多语言数据进行训练。mDeBERTa V3基础模型具有12层和隐藏大小为768。它有86M的主干参数，词汇表包含250K个标记，在Embedding层引入了190M个参数。该模型使用2.5T的CC100数据进行训练，类似于XLM-R。

Fine-tuning 在 NLU 任务上

我们在XNLI上使用零-shot跨语言传递设置进行dev结果展示，即仅使用英语数据进行训练，测试其他语言。

Model	avg	en	fr	es	de	el	bg	ru	tr	ar	vi	th	zh	hi	sw	ur
XLM-R-base	76.2	85.8	79.7	80.7	78.7	77.5	79.6	78.1	74.2	73.8	76.5	74.6	76.7	72.4	66.5	68.3
mDeBERTa-base	79.8 +/-0.2	88.2	82.6	84.4	82.7	82.3	82.4	80.8	79.5	78.5	78.1	76.4	79.5	75.9	73.9	72.4

用HF transformers

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets

output_dir="ds_results"

num_gpus=8

batch_size=4

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_xnli.py \
  --model_name_or_path microsoft/mdeberta-v3-base \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --train_language en \
  --language en \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 3000 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 2e-5 \
  --num_train_epochs 6 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

进行Fine-tuning

引文

如果您发现DeBERTa对您的工作有用，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}

作者:

Microsoft

数据集大小:

3.17 GB