英文

Multi-Genre Natural Language Inference (MultiNLI) 数据集卡片

数据集概述

Multi-Genre Natural Language Inference(MultiNLI)语料库是一个众包收集的、包含433k个句对的数据集,这些句对标注了文本蕴含信息。该语料库的模型基于SNLI语料库,但不同之处在于它涵盖了各种口语和书面文本的类型,并支持跨类型的独特推广评估。该语料库作为2017年EMNLP哥本哈根RepEval研讨会的共享任务的基础。

支持的任务和排行榜

More Information Needed

语言

该数据集只包含英文样本。

数据集结构

数据实例

  • 下载的数据集文件大小: 226.85 MB
  • 生成的数据集大小: 76.95 MB
  • 总使用的磁盘空间: 303.81 MB

数据实例示例:

{
    "promptID": 31193,
    "pairID": "31193n",
    "premise": "Conceptually cream skimming has two basic dimensions - product and geography.",
    "premise_binary_parse": "( ( Conceptually ( cream skimming ) ) ( ( has ( ( ( two ( basic dimensions ) ) - ) ( ( product and ) geography ) ) ) . ) )",
    "premise_parse": "(ROOT (S (NP (JJ Conceptually) (NN cream) (NN skimming)) (VP (VBZ has) (NP (NP (CD two) (JJ basic) (NNS dimensions)) (: -) (NP (NN product) (CC and) (NN geography)))) (. .)))",
    "hypothesis": "Product and geography are what make cream skimming work. ",
    "hypothesis_binary_parse": "( ( ( Product and ) geography ) ( ( are ( what ( make ( cream ( skimming work ) ) ) ) ) . ) )",
    "hypothesis_parse": "(ROOT (S (NP (NN Product) (CC and) (NN geography)) (VP (VBP are) (SBAR (WHNP (WP what)) (S (VP (VBP make) (NP (NP (NN cream)) (VP (VBG skimming) (NP (NN work)))))))) (. .)))",
    "genre": "government",
    "label": 1
}

数据字段

所有拆分间的数据字段都相同。

  • promptID :提示的唯一标识符
  • pairID :双对的唯一标识符
  • {premise,hypothesis} :前提和假设的组合
  • {premise,hypothesis} parse :由Stanford PCFG解析器3.5.2解析的每个句子
  • {premise,hypothesis} binary parse :用无标签的二叉分支格式表示的解析
  • genre :一个字符串特征。
  • label :一个分类标签,可能的值包括推理(0)、中性(1)、矛盾(2)。在没有任何黄金标签的数据集实例中,标记为-1。在开始训练之前,请确保使用 datasets.Dataset.filter 过滤掉它们。

数据拆分

train validation_matched validation_mismatched
392702 9815 9832

数据集构建

策划理由

他们构建MultiNLI是为了能够明确评估模型在训练领域内句子表示质量以及它们在陌生领域中推导合理表示的能力。

源数据

初始数据收集和规范化

他们通过从预先存在的文本来源中选择前提句子,并要求人工标注者撰写一个新的假设句子与之配对来创建每个句子对。

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时需考虑的因素

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

More Information Needed

授权信息

大多数语料库在OANC的许可下发布,允许所有内容在宽松的条款下自由使用、修改和共享。小说部分的数据使用了几种宽松的许可证,Seven Swords采用了Creative Commons Share-Alike 3.0 Unported许可证,经作者明确许可,Living History和Password Incorrect采用了Creative Commons Attribution 3.0 Unported许可证;其余小说作品在美国是公共领域(但可能在其他地方有不同的许可证)。

引用信息

@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}

贡献者

感谢 @bhavitvyamalik @patrickvonplaten @thomwolf @mariamabarham 添加了该数据集。