模型:
THUDM/glm-roberta-large
GLM是一个使用自回归填充目标进行预训练的通用语言模型,可以在多种自然语言理解和生成任务上进行微调。
请参考我们的论文以获取GLM的详细描述:
GLM: General Language Model Pretraining with Autoregressive Blank Infilling (ACL 2022)
都征霄*,钱雨洁*,刘潇,丁明,邱杰忠,杨志林,唐杰 (*: 同等贡献)
在我们的 Github repo 中找到更多实例。
glm-roberta-large是在RoBERTa数据集上预训练的。它有24个变压器层,每层的隐藏大小为1024,每层有16个注意头。该模型使用了为自然语言理解、序列到序列和语言建模设计的自回归填充目标进行预训练。有关更多详细信息,请查看我们的 repo 。
请参阅我们Github存储库中的 instruction 。
glm-roberta-large只支持[MASK]用于短填充。预测始终以特殊的标记开头,并以标记结束。
如果您发现这个代码对您的研究有用,请引用我们的论文:
@article{DBLP:conf/acl/DuQLDQY022,
author = {Zhengxiao Du and
Yujie Qian and
Xiao Liu and
Ming Ding and
Jiezhong Qiu and
Zhilin Yang and
Jie Tang},
title = {{GLM:} General Language Model Pretraining with Autoregressive Blank Infilling},
booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational
Linguistics (Volume 1: Long Papers), {ACL} 2022, Dublin, Ireland,
May 22-27, 2022},
pages = {320--335},
publisher = {Association for Computational Linguistics},
year = {2022},
}