数据集:
imdb
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
电影评论数据集。这是一个用于二元情感分类的数据集,包含比以前的基准数据集更多的数据。我们提供了25,000个极性极强的电影评论作为训练数据,另外还有25,000个用于测试的评论数据。还有一些未标记的数据可以使用。
'train' 的示例如下所示。
{
"label": 0,
"text": "Goodbye world2\n"
}
所有拆分都具有相同的数据字段。
plain_text| name | train | unsupervised | test |
|---|---|---|---|
| plain_text | 25000 | 50000 | 25000 |
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
感谢 @ghazi-f , @patrickvonplaten , @lhoestq , @thomwolf 添加了该数据集。