数据集:

quoref

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-4.0
英文

“quoref” 数据集卡片

数据集概述

Quoref是一个问答数据集,用于测试阅读理解系统的指代推理能力。该数据集包含来自维基百科的4.7K个段落,共有24K个问题,系统必须在选择段落中适当的跨度来回答问题之前解决指代关系。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小:5.08 MB
  • 生成的数据集大小:49.82 MB
  • 总磁盘使用量:54.90 MB

'验证'示例如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [1633],
        "text": ["Frankie"]
    },
    "context": "\"Frankie Bono, a mentally disturbed hitman from Cleveland, comes back to his hometown in New York City during Christmas week to ...",
    "id": "bfc3b34d6b7e73c0bd82a009db12e9ce196b53e6",
    "question": "What is the first name of the person who has until New Year's Eve to perform a hit?",
    "title": "Blast of Silence",
    "url": "https://en.wikipedia.org/wiki/Blast_of_Silence"
}

数据字段

所有拆分的数据字段都相同。

default
  • id:字符串特征。
  • 问题:字符串特征。
  • 上下文:字符串特征。
  • 标题:字符串特征。
  • url:字符串特征。
  • 答案:包含的字典特征:
    • 答案起始位置:int32特征。
    • 文本:字符串特征。

数据拆分

name train validation
default 19399 2418

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言的制作人是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{allenai:quoref,
      author    = {Pradeep Dasigi and Nelson F. Liu and Ana Marasovic and Noah A. Smith and  Matt Gardner},
      title     = {Quoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning},
      journal   = {arXiv:1908.05803v2 },
      year      = {2019},
}

贡献

感谢 @lewtun @patrickvonplaten @thomwolf 添加了此数据集。