数据集:

sst2

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original
英文

数据集介绍:[数据集名称]

数据集概述

斯坦福情感树库是一个包含完全标记的句法树的语料库,可以对语言中情感的组合效应进行全面分析。该语料库基于Pang和Lee(2005年)介绍的数据集,包含11,855个从电影评论中提取的单个句子。它使用斯坦福解析器进行解析,并包含来自这些解析树的215,154个唯一短语,每个短语由3个人类评判员进行注释。

完整句子的二元分类实验(将中性句子丢弃,将负面或稍微负面的句子与稍微正面或正面的句子进行区分)将数据集称为SST-2或SST二进制数据集。

支持的任务和排行榜

  • 情感分类

语言

数据集中的文本为英语(en)。

数据集结构

数据实例

{'idx': 0,
 'sentence': 'hide new secretions from the parental units ',
 'label': 0}

数据字段

  • idx:递增的索引ID。
  • 句子:表达对电影的观点的完整句子。
  • 标签:观点的情感,可以是“negative”(0)或“positive”(1)。测试集标签已隐藏(-1)。

数据集划分

train validation test
Number of examples 67349 872 1821

数据集创建

策划理由

[需要更多信息]

原始数据来源

初始数据收集和规范化

[需要更多信息]

语言生成者是谁?

Tomatometmakorelim

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划

[需要更多信息]

许可信息

未知

引用信息

@inproceedings{socher-etal-2013-recursive,
    title = "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank",
    author = "Socher, Richard  and
      Perelygin, Alex  and
      Wu, Jean  and
      Chuang, Jason  and
      Manning, Christopher D.  and
      Ng, Andrew  and
      Potts, Christopher",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D13-1170",
    pages = "1631--1642",
}

贡献

感谢 @albertvillanova 添加此数据集。