microsoft/MiniLM-L12-H384-uncased | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

microsoft/MiniLM-L12-H384-uncased

任务:

文本分类

类库:

PyTorch TensorFlow JAX Transformers

其他:

bert

预印本库:

arxiv:2002.10957 arxiv:1810.04805

许可:

mit

模型介绍文件清单

英文

MiniLM:小巧快速的预训练语言理解和生成模型

MiniLM是从论文" MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers "中精简出来的模型。

请在 original MiniLM repository 中找到关于预处理、训练和MiniLM的详细信息。

请注意：在使用之前，此检查点可以替代BERT并进行微调！

英文预训练模型

我们推出了从内部预训练UniLM v2模型（BERT-Base尺寸）中提炼出来的uncased 12层模型，隐藏大小为384。

MiniLMv1-L12-H384-uncased：12层，384个隐藏层单元，12个注意头，33M参数，比BERT-Base快2.7倍

在自然语言理解任务上的微调

我们在SQuAD 2.0和几个GLUE基准任务上呈现了开发结果。

Model	#Param	SQuAD 2.0	MNLI-m	SST-2	QNLI	CoLA	RTE	MRPC	QQP
1233321	109M	76.8	84.5	93.2	91.7	58.9	68.6	87.3	91.3
MiniLM-L12xH384	33M	81.7	85.7	93.0	91.5	58.5	73.3	89.5	91.3

引用

如果您在研究中发现MiniLM有用，请引用以下论文：

@misc{wang2020minilm,
    title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers},
    author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou},
    year={2020},
    eprint={2002.10957},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

作者:

Microsoft

数据集大小:

382.32 MB