英文

数据集卡片:sick

数据集摘要

共享和被国际公认的基准是任何计算系统发展的基础。我们旨在通过提供适用于组合分布语义模型(CDSMs)的大规模英文基准数据集SICK(涉及组合知识的句子),帮助研究社区。SICK包含大约10,000个英文句对,其中包含许多CDSMs应该解决的词汇、句法和语义现象的例子,但不需要处理CDSMs范围之外的现有句子数据集的其他方面(惯用的多字表达式、命名实体、电报语言)。通过众包技术,每个句对被注释为两个至关重要的语义任务:意义相关性(使用5级评分标准作为黄金分数)和两个元素之间的蕴含关系(使用三个可能的黄金标签:蕴含、矛盾和中立)。SICK数据集在SemEval-2014任务1中使用,并可供研究目的免费使用。

支持的任务和排行榜

[需要更多信息]

语言

数据集为英文。

数据集结构

数据实例

示例实例:

{
    "entailment_AB": "A_neutral_B",
    "entailment_BA": "B_neutral_A",
    "label": 1,
    "id": "1",
    "relatedness_score": 4.5,
    "sentence_A": "A group of kids is playing in a yard and an old man is standing in the background",
    "sentence_A_dataset": "FLICKR",
    "sentence_A_original": "A group of children playing in a yard, a man in the background.",
    "sentence_B": "A group of boys in a yard is playing and a man is standing in the background",
    "sentence_B_dataset": "FLICKR",
    "sentence_B_original": "A group of children playing in a yard, a man in the background."
}

数据字段

  • pair_ID: 句对ID
  • sentence_A: 句子A
  • sentence_B: 句子B
  • label: 文本蕴含的黄金标签:蕴含(0)、中立(1)或矛盾(2)
  • relatedness_score: 语义相关性的黄金分数(在1-5的连续尺度上)
  • entailment_AB: A-B顺序的蕴含关系(A_neutral_B,A_entails_B或A_contradicts_B)
  • entailment_BA: B-A顺序的蕴含关系(B_neutral_A,B_entails_A或B_contradicts_A)
  • sentence_A_original: 句子A的原始句子
  • sentence_B_original: 句子B的原始句子
  • sentence_A_dataset: 句子A的原始所在数据集(FLICKR vs. SEMEVAL)
  • sentence_B_dataset: 句子B的原始所在数据集(FLICKR vs. SEMEVAL)

数据拆分

训练集4439,试验集495,测试集4906

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{marelli-etal-2014-sick,
    title = "A {SICK} cure for the evaluation of compositional distributional semantic models",
    author = "Marelli, Marco  and
      Menini, Stefano  and
      Baroni, Marco  and
      Bentivogli, Luisa  and
      Bernardi, Raffaella  and
      Zamparelli, Roberto",
    booktitle = "Proceedings of the Ninth International Conference on Language Resources and Evaluation ({LREC}'14)",
    month = may,
    year = "2014",
    address = "Reykjavik, Iceland",
    publisher = "European Language Resources Association (ELRA)",
    url = "http://www.lrec-conf.org/proceedings/lrec2014/pdf/363_Paper.pdf",
    pages = "216--223",
}

贡献者

感谢 @calpt 添加了这个数据集。