数据集:

boolq

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original
英文

Boolq 数据集卡片

数据集概要

BoolQ 是一个用于回答是/否问题的数据集,包含15942个样例。这些问题是自然出现的——在无提示和无约束的环境中生成的。每个样例是一个三元组(问题、段落、答案),标题作为可选的附加上下文。文本对分类的设置类似于现有的自然语言推理任务。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小:8.77 MB
  • 生成的数据集大小:7.83 MB
  • 使用的总磁盘空间量:16.59 MB

"验证"的一个例子如下所示。

This example was too long and was cropped:

{
    "answer": false,
    "passage": "\"All biomass goes through at least some of these steps: it needs to be grown, collected, dried, fermented, distilled, and burned...",
    "question": "does ethanol take more energy make that produces"
}

数据字段

所有分割的数据字段都是相同的。

默认
  • 问题:字符串特征。
  • 答案:布尔特征。
  • 段落:字符串特征。

数据分割

name train validation
default 9427 3270

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

资源语言的生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

BoolQ 在 Creative Commons Share-Alike 3.0 许可下发布。

引用信息

@inproceedings{clark2019boolq,
  title =     {BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author =    {Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle = {NAACL},
  year =      {2019},
}

贡献

感谢 @lewtun @lhoestq @thomwolf @patrickvonplaten @albertvillanova 添加了这个数据集。