数据集:

commonsense_qa

任务:

问答

子任务:

open-domain-qa

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1811.00937

许可:

mit
英文

"commonsense_qa"数据集的数据卡片

数据集概述

CommonsenseQA是一个新的多选题回答数据集,需要各种常识知识来预测正确答案。它包含12,102个问题,每个问题有一个正确答案和四个干扰答案。数据集提供了两个主要的训练/验证/测试集划分:“随机划分”是主要评估划分,“问题令牌划分”,详见论文。

支持的任务和排行榜

More Information Needed

语言

数据集为英语(en)。

数据集结构

数据实例

默认
  • 下载的数据集文件大小:4.68 MB
  • 生成的数据集大小:2.18 MB
  • 总计磁盘使用量:6.86 MB

“train”的示例如下:

{'id': '075e483d21c29a511267ef62bedc0461',
 'question': 'The sanctions against the school were a punishing blow, and they seemed to what the efforts the school had made to change?',
 'question_concept': 'punishing',
 'choices': {'label': ['A', 'B', 'C', 'D', 'E'],
  'text': ['ignore', 'enforce', 'authoritarian', 'yell at', 'avoid']},
 'answerKey': 'A'}

数据字段

所有划分的数据字段均相同。

默认
  • id ( str ): 唯一ID。
  • question : 一个字符串特征。
  • question_concept ( str ): 与问题相关联的ConceptNet概念。
  • choices : 包含以下内容的字典特征:
    • label : 一个字符串特征。
    • text : 一个字符串特征。
  • answerKey : 一个字符串特征。

数据划分

name train validation test
default 9741 1221 1140

数据集创建

策划理由

More Information Needed

源数据

数据收集和标准化

More Information Needed

谁是源语言的制作者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏差讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

该数据集获得MIT许可。

参见: https://github.com/jonathanherzig/commonsenseqa/issues/5

引用信息

@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
    archivePrefix = "arXiv",
    eprint        = "1811.00937",
    primaryClass  = "cs",
}

贡献者

感谢 @thomwolf @lewtun @albertvillanova @patrickvonplaten 添加此数据集。