BERTweet：一个为英文推文预训练的语言模型

BERTweet 是首个为英文推文预训练的大规模语言模型。BERTweet 是基于 RoBERTa 的预训练过程进行训练的。用于预训练 BERTweet 的语料库包括 8.5 亿条英文推文（16B 个单词标记 ~ 80GB），其中包括自 2012 年 01 月至 2019 年 08 月期间的 8.45 亿条推文和与 COVID-19 疫情相关的 500 万条推文。BERTweet 的总体架构和实验结果可以在我们的 paper 中找到：

@inproceedings{bertweet,
title     = {{BERTweet: A pre-trained language model for English Tweets}},
author    = {Dat Quoc Nguyen and Thanh Vu and Anh Tuan Nguyen},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
pages     = {9--14},
year      = {2020}
}

当使用 BERTweet 帮助产生发布结果或整合到其他软件中时，请引用我们的论文。

有关进一步信息或请求，请访问 BERTweet's homepage 网站！

作者:

VinAI Research

数据集大小:

1.7 GB