英文

数据集卡片:"super_glue"

数据集摘要

"super_glue"是一个新的基准数据集,类似于GLUE,包含一组更难的语言理解任务、改进的资源和一个新的公开排行榜。

BoolQ(布尔问题,Clark et al.,2019a)是一个问答任务,每个样本由一个简短段落和一个关于该段落的是/否问题组成。问题是由Google搜索引擎的用户匿名提供的,之后与包含答案的维基百科文章的段落配对。我们按照原始工作使用准确率进行评估。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

axb
  • 下载的数据集文件大小:0.03 MB
  • 生成的数据集大小:0.24 MB
  • 使用的总磁盘空间:0.27 MB

"test"的示例如下:

axg
  • 下载的数据集文件大小:0.01 MB
  • 生成的数据集大小:0.05 MB
  • 使用的总磁盘空间:0.06 MB

"test"的示例如下:

boolq
  • 下载的数据集文件大小:4.12 MB
  • 生成的数据集大小:10.40 MB
  • 使用的总磁盘空间:14.52 MB

"train"的示例如下:

cb
  • 下载的数据集文件大小:0.07 MB
  • 生成的数据集大小:0.20 MB
  • 使用的总磁盘空间:0.28 MB

"train"的示例如下:

copa
  • 下载的数据集文件大小:0.04 MB
  • 生成的数据集大小:0.13 MB
  • 使用的总磁盘空间:0.17 MB

"train"的示例如下:

数据字段

所有拆分的数据字段相同。

axb
  • sentence1: 字符串特征
  • sentence2: 字符串特征
  • idx: int32特征
  • label: 分类标签,可能的值包括entailment(0)、not_entailment(1)
axg
  • premise: 字符串特征
  • hypothesis: 字符串特征
  • idx: int32特征
  • label: 分类标签,可能的值包括entailment(0)、not_entailment(1)
boolq
  • question: 字符串特征
  • passage: 字符串特征
  • idx: int32特征
  • label: 分类标签,可能的值包括False(0)、True(1)
cb
  • premise: 字符串特征
  • hypothesis: 字符串特征
  • idx: int32特征
  • label: 分类标签,可能的值包括entailment(0)、contradiction(1)、neutral(2)
copa
  • premise: 字符串特征
  • choice1: 字符串特征
  • choice2: 字符串特征
  • question: 字符串特征
  • idx: int32特征
  • label: 分类标签,可能的值包括choice1(0)、choice2(1)

数据拆分

axb
test
axb 1104
axg
test
axg 356
boolq
train validation test
boolq 9427 3270 3245
cb
train validation test
cb 250 56 250
copa
train validation test
copa 400 100 500

数据集创建

策划理由

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

资源语言制作人是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

贡献

感谢 @thomwolf @lewtun @patrickvonplaten 添加此数据集。