模型:
vinai/bertweet-covid19-base-cased
BERTweet是第一个用于英文推文的公开大规模预训练语言模型。BERTweet是基于 RoBERTa 的预训练过程进行训练的。用于预训练BERTweet的语料库包括850M条英文推文(16B个词标记 ~ 80GB),其中包含从01/2012到08/2019流式传输的845M条推文和与COVID-19流行病相关的5M条推文。BERTweet的通用架构和实验结果可以在我们的 paper 中找到:
@inproceedings{bertweet,
title = {{BERTweet: A pre-trained language model for English Tweets}},
author = {Dat Quoc Nguyen and Thanh Vu and Anh Tuan Nguyen},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
pages = {9--14},
year = {2020}
}
当使用BERTweet帮助生成发表结果或纳入其他软件时,请引用我们的论文。
有关更多信息或请求,请访问 BERTweet's homepage !