BERTweet: 一个预训练的英文推文语言模型

BERTweet是第一个公开的用于英文推文的大规模语言模型预训练模型。BERTweet基于 RoBERTa 的预训练过程进行训练。用于预训练BERTweet的语料库包含了85亿个英文推文（16B个词元 ~ 80GB），其中包括自2012年1月至2019年8月期间的8.45亿条推文和500万条与COVID-19大流行相关的推文。BERTweet的总体架构和实验结果可以在我们的 paper 中找到：

@inproceedings{bertweet,
title     = {{BERTweet: A pre-trained language model for English Tweets}},
author    = {Dat Quoc Nguyen and Thanh Vu and Anh Tuan Nguyen},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},
pages     = {9--14},
year      = {2020}
}

在使用BERTweet帮助产生出版结果或将其纳入其他软件时，请引用我们的论文。

如需更多信息或提问，请访问 BERTweet's homepage ！

主要结果

作者:

VinAI Research

数据集大小:

2.85 GB