数据集:

common_gen

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found crowdsourced

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1911.03705

许可:

mit
英文

"common_gen" 数据集卡片

数据集简介

CommonGen 是一个受到基准数据集支持的约束文本生成任务,旨在显式测试机器对生成性常识推理的能力。给定一组常见的概念,任务是使用这些概念生成一个描述日常场景的连贯句子。

CommonGen 具有挑战性,因为它本质上需要以下两点能力:1)使用背景常识知识进行关系推理,2)能够以组合方式进行泛化,处理未见过的概念组合。我们的数据集是通过 AMT 的众包和现有的标题语料库相结合构建的,总共包含30,000个概念集和50,000个句子。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认值
  • 下载的数据集文件大小:1.85 MB
  • 生成的数据集大小:7.21 MB
  • 总磁盘使用量:9.06 MB

'train' 的示例如下所示。

{
    "concept_set_idx": 0,
    "concepts": ["ski", "mountain", "skier"],
    "target": "Three skiers are skiing on a snowy mountain."
}

数据字段

所有拆分的数据字段相同。

默认值
  • concept_set_idx:一个int32特征。
  • concepts:一个字符串特征列表。
  • target:一个字符串特征。

数据拆分

name train validation test
default 67389 4018 1497

数据集创建

策划理由

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

谁是源语言的产出者?

More Information Needed

注释

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集创建者

More Information Needed

许可信息

该数据集基于 MIT License 许可。

引用信息

@inproceedings{lin-etal-2020-commongen,
    title = "{C}ommon{G}en: A Constrained Text Generation Challenge for Generative Commonsense Reasoning",
    author = "Lin, Bill Yuchen  and
      Zhou, Wangchunshu  and
      Shen, Ming  and
      Zhou, Pei  and
      Bhagavatula, Chandra  and
      Choi, Yejin  and
      Ren, Xiang",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.165",
    doi = "10.18653/v1/2020.findings-emnlp.165",
    pages = "1823--1840"
}

贡献

感谢 @JetRunner @yuchenlin @thomwolf @lhoestq 添加此数据集。