数据集:

openbookqa

任务:

问答

子任务:

open-domain-qa

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated

源数据集:

original
英文

OpenBookQA 数据集卡片

数据集摘要

OpenBookQA 旨在促进高级问答研究,深入探索主题的理解(有显著事实作为开放书籍概述,数据集中也提供了这些信息)以及表达这一理解的语言的深入理解。具体而言,它包含需要多步推理、使用额外的常识和常识知识以及丰富的文本理解的问题。OpenBookQA是一种新型的问答数据集,以考察人类对主题的理解,模仿了开放书籍考试的形式。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

main
  • 下载的数据集文件大小:1.45 MB
  • 生成的数据集大小:1.45 MB
  • 使用的总磁盘空间:2.88 MB

"train" 的示例如下所示:

{'id': '7-980',
 'question_stem': 'The sun is responsible for',
 'choices': {'text': ['puppies learning new tricks',
   'children growing up and getting old',
   'flowers wilting in a vase',
   'plants sprouting, blooming and wilting'],
  'label': ['A', 'B', 'C', 'D']},
 'answerKey': 'D'}
additional
  • 下载的数据集文件大小:1.45 MB
  • 生成的数据集大小:1.45 MB
  • 使用的总磁盘空间:2.88 MB

"train" 的示例如下所示:

{'id': '7-980',
 'question_stem': 'The sun is responsible for',
 'choices': {'text': ['puppies learning new tricks',
   'children growing up and getting old',
   'flowers wilting in a vase',
   'plants sprouting, blooming and wilting'],
  'label': ['A', 'B', 'C', 'D']},
 'answerKey': 'D',
 'fact1': 'the sun is the source of energy for physical cycles on Earth',
 'humanScore': 1.0,
 'clarity': 2.0,
 'turkIdAnonymized': 'b356d338b7'}

数据字段

所有拆分的数据字段相同。

main
  • id:字符串特征。
  • question_stem:字符串特征。
  • choices:包含以下内容的字典特征:
    • text:字符串特征。
    • label:字符串特征。
  • answerKey:字符串特征。
additional
  • id:字符串特征。
  • question_stem:字符串特征。
  • choices:包含以下内容的字典特征:
    • text:字符串特征。
    • label:字符串特征。
  • answerKey:字符串特征。
  • fact1(str):与问题相关的通常知识核心事实。
  • humanScore(float):人类准确性得分。
  • clarity(float):清晰度得分。
  • turkIdAnonymized(str):匿名的众包工作者 ID。

数据拆分

name train validation test
main 4957 500 500
additional 4957 500 500

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{OpenBookQA2018,
 title={Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering},
 author={Todor Mihaylov and Peter Clark and Tushar Khot and Ashish Sabharwal},
 booktitle={EMNLP},
 year={2018}
}

贡献

感谢 @thomwolf @patrickvonplaten @lewtun 添加了此数据集。