数据集:

quartz

许可:

cc-by-4.0

源数据集:

original

批注创建人:

crowdsourced

语言创建人:

crowdsourced

大小:

1K<n<10K

计算机处理:

monolingual

语言:

en

任务:

问答
英文

数据集卡片:"quartz"

数据集概述

Quartz是一个众包数据集,包含3864个关于开放领域定性关系的多项选择问题。每个问题与一个不同的背景句子(有时是短段落)配对。QuaRTz V1数据集包含3864个关于开放领域定性关系的问题。每个问题与一个不同的背景句子(有时是短段落)配对。

数据集分为训练集(2696)、开发集(384)和测试集(784)。一个背景句子只会出现在一个数据集拆分中。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小: 0.49 MB
  • 生成的数据集大小: 1.72 MB
  • 使用的总磁盘空间大小: 2.22 MB

'train'的一个示例如下所示。

{
    "answerKey": "A",
    "choices": {
        "label": ["A", "B"],
        "text": ["higher", "lower"]
    },
    "id": "QRQA-10116-3",
    "para": "Electrons at lower energy levels, which are closer to the nucleus, have less energy.",
    "para_anno": {
        "cause_dir_sign": "LESS",
        "cause_dir_str": "closer",
        "cause_prop": "distance from a nucleus",
        "effect_dir_sign": "LESS",
        "effect_dir_str": "less",
        "effect_prop": "energy"
    },
    "para_id": "QRSent-10116",
    "question": "Electrons further away from a nucleus have _____ energy levels than close ones.",
    "question_anno": {
        "less_cause_dir": "electron energy levels",
        "less_cause_prop": "nucleus",
        "less_effect_dir": "lower",
        "less_effect_prop": "electron energy levels",
        "more_effect_dir": "higher",
        "more_effect_prop": "electron energy levels"
    }
}

数据字段

所有拆分的数据字段都是相同的。

default
  • id: 字符串特征。
  • question: 字符串特征。
  • choices: 包含以下内容的字典特征:
    • text: 字符串特征。
    • label: 字符串特征。
  • answerKey: 字符串特征。
  • para: 字符串特征。
  • para_id: 字符串特征。
  • effect_prop: 字符串特征。
  • cause_dir_str: 字符串特征。
  • effect_dir_str: 字符串特征。
  • cause_dir_sign: 字符串特征。
  • effect_dir_sign: 字符串特征。
  • cause_prop: 字符串特征。
  • more_effect_dir: 字符串特征。
  • less_effect_dir: 字符串特征。
  • less_cause_prop: 字符串特征。
  • more_effect_prop: 字符串特征。
  • less_effect_prop: 字符串特征。
  • less_cause_dir: 字符串特征。

数据拆分

name train validation test
default 2696 384 784

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

语言贡献者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据集的许可协议为 创意共享 Attribution 4.0 International (CC BY 4.0)

引用信息

@InProceedings{quartz,
  author = {Oyvind Tafjord and Matt Gardner and Kevin Lin and Peter Clark},
  title = {"QUARTZ: An Open-Domain Dataset of Qualitative Relationship
Questions"},

  year = {"2019"},
}

贡献者

感谢 @patrickvonplaten @lewtun @thomwolf 添加此数据集。