华为诺亚方舟开源预训练模型“哪吒”，多项任务均达到SOTA

2020年01月14日由 TGS 发表 447342 0

BERT之后，新的预训练语言模型XLnet、RoBERTa、ERNIE不断推出，这次，华为诺亚方舟实验室开源了基于BERT的中文预训练语言模型NEZHA（哪吒），寓意模型能像哪吒那样三头六臂、大力出奇迹，可以处理很多不同的自然语言任务。

据介绍，当前版本的NEZHA基于BERT模型，并进行了多处优化，能够在一系列中文自然语言理解任务达到先进水平。

NEZHA模型的实验中采用了5个中文自然语言理解任务，即CMRC（中文阅读理解）、XNLI（自然语言推断）、LCQMC（句义匹配）、PD-NER （命名实体识别任务）、ChnSenti（情感分类）。

研究人员在中文维基百科、中文新闻、百度百科数据上训练NEZHA模型，并且和谷歌发布的中文BERT，以及哈工大和科大讯飞联合发布的BERT-WWM，还有百度发布的ERNIE-Baidu进行了比较。从下表可以看出，NEZHA在XNLI，LCQMC，PeoplesDaily NER，ChnSenti任务上达到了先进水平（SOTA）。表中NEZHA，NEZHA-WWM和NEZHA-Span分别代表由原始的BERT预训练任务训练得到的，加入全词Mask训练得到的以及加入Span预测任务训练得到的NEZHA模型（三者均使用了全函数式相对位置编码）。

此外，诺亚方舟实验室还开源了TinyBERT预训练语言模型。

尽管语言模型预训练（例如BERT）大大改善了许多自然语言处理任务的性能。但是，预训练语言模型通常在计算上昂贵且占用了大量内存，因此很难在某些资源受限的设备上有效执行它们。为了加快推理速度、减小模型大小并同时保持精度，华为研究人员提出了一种新颖的transformer蒸馏方法，该方法是针对基于transformer模型专门设计的知识蒸馏（KD）方法。

通过利用这种新的知识蒸馏方法，可以将BERT中编码的大量知识很好地转移到TinyBERT。此外，他们为TinyBERT引入了一个新的两阶段学习框架，该框架在预训练阶段和特定任务的学习阶段都执行transformer蒸馏方法。该框架确保TinyBERT可以捕获BERT的一般领域知识和特定任务知识。在GLUE基准测试中，TinyBERT相比BERT小7.5倍，比其推理的速度快9.4倍，并且在自然语言理解任务中具有竞争优势。

标签：

公司板华为

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇旷视联合泰尔实验室发布2019智能手机影像技术白皮书

下一篇 AI首次获法律认可，一公司因抄袭AI创作的文章被罚款

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体