数据集:

rotten_tomatoes

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original
英文

数据集卡片:"rotten_tomatoes"

数据集概要

电影评论数据集。这是一个包含5331个正面和5331个负面处理过的Rotten Tomatoes电影评论句子的数据集。此数据首次用于BoPang和Lillian Lee的论文"Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales.",ACL会议论文,2005年。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小:0.49 MB
  • 生成的数据集大小:1.34 MB
  • 总共使用的磁盘空间:1.84 MB

'validation'的一个示例如下所示。

{
    "label": 1,
    "text": "Sometimes the days and nights just drag on -- it 's the morning that make me feel alive . And I have one thing to thank for that : pancakes . "
}

数据字段

所有拆分的数据字段都是相同的。

default
  • text:一个字符串特征。
  • label:一个分类标签,可能的取值包括负(0)、正(1)。

数据拆分

name train validation test
default 8530 1066 1066

数据集创建

策划理由

More Information Needed

数据来源

初始数据收集和标准化

More Information Needed

谁是原始语言的制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的考虑事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{Pang+Lee:05a,
  author =       {Bo Pang and Lillian Lee},
  title =        {Seeing stars: Exploiting class relationships for sentiment
                  categorization with respect to rating scales},
  booktitle =    {Proceedings of the ACL},
  year =         2005
}

贡献

感谢 @thomwolf @jxmorris12 添加此数据集。