数据集:

sciq

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

original
英文

"sciq" 数据集卡片

数据集概述

SciQ 数据集包含13,679个众包科学考试问题,涉及物理学、化学和生物学等多个科目。这些问题以多选题的形式提供,每个问题有4个答案选项。对于大多数问题,还提供支持正确答案的附加段落。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小:2.82 MB
  • 生成的数据集大小:7.68 MB
  • 使用的总磁盘空间量:10.50 MB

"train" 的示例如下所示。

This example was too long and was cropped:

{
    "correct_answer": "coriolis effect",
    "distractor1": "muon effect",
    "distractor2": "centrifugal effect",
    "distractor3": "tropical effect",
    "question": "What phenomenon makes global winds blow northeast to southwest or the reverse in the northern hemisphere and northwest to southeast or the reverse in the southern hemisphere?",
    "support": "\"Without Coriolis Effect the global winds would blow north to south or south to north. But Coriolis makes them blow northeast to..."
}

数据字段

所有拆分的数据字段都是相同的。

默认
  • 问题:一个字符串属性。
  • distractor3:一个字符串属性。
  • distractor1:一个字符串属性。
  • distractor2:一个字符串属性。
  • correct_answer:一个字符串属性。
  • support:一个字符串属性。

数据拆分

name train validation test
default 11679 1000 1000

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的考虑事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

该数据集在 Creative Commons Attribution-NonCommercial 3.0 Unported License 下获得许可。

引用信息

@inproceedings{SciQ,
    title={Crowdsourcing Multiple Choice Science Questions},
    author={Johannes Welbl, Nelson F. Liu, Matt Gardner},
    year={2017},
    journal={arXiv:1707.06209v1}
}

贡献

感谢 @patrickvonplaten @lewtun @thomwolf 为添加此数据集。