BERTweet：针对英文推特的预训练语言模型

BERTweet是首个面向英文推特的大规模公开预训练语言模型。BERTweet是基于 RoBERTa 预训练程序进行训练的。用于预训练BERTweet的语料库包括8.5亿个英文推特（约160亿个词标记 ~ 80GB），其中包含自2012年01月至2019年08月期间的8.45亿条推特和与COVID-19疫情相关的500万条推特。BERTweet的总体架构和实验结果可在我们的 paper 中找到：

@inproceedings{bertweet,
title     = {{BERTweet: A pre-trained language model for English Tweets}},
author    = {Dat Quoc Nguyen and Thanh Vu and Anh Tuan Nguyen},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
pages     = {9--14},
year      = {2020}
}

当使用BERTweet来帮助生成出版结果或被纳入其他软件中时，请引用我们的论文。

如需更多信息或提出请求，请访问 BERTweet's homepage ！

主要结果

作者:

VinAI Research

数据集大小:

1.7 GB