数据集:
common_gen
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1911.03705其他:
concepts-to-text许可:
CommonGen 是一个受到基准数据集支持的约束文本生成任务,旨在显式测试机器对生成性常识推理的能力。给定一组常见的概念,任务是使用这些概念生成一个描述日常场景的连贯句子。
CommonGen 具有挑战性,因为它本质上需要以下两点能力:1)使用背景常识知识进行关系推理,2)能够以组合方式进行泛化,处理未见过的概念组合。我们的数据集是通过 AMT 的众包和现有的标题语料库相结合构建的,总共包含30,000个概念集和50,000个句子。
'train' 的示例如下所示。
{
    "concept_set_idx": 0,
    "concepts": ["ski", "mountain", "skier"],
    "target": "Three skiers are skiing on a snowy mountain."
}
 所有拆分的数据字段相同。
默认值| name | train | validation | test | 
|---|---|---|---|
| default | 67389 | 4018 | 1497 | 
该数据集基于 MIT License 许可。
@inproceedings{lin-etal-2020-commongen,
    title = "{C}ommon{G}en: A Constrained Text Generation Challenge for Generative Commonsense Reasoning",
    author = "Lin, Bill Yuchen  and
      Zhou, Wangchunshu  and
      Shen, Ming  and
      Zhou, Pei  and
      Bhagavatula, Chandra  and
      Choi, Yejin  and
      Ren, Xiang",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.165",
    doi = "10.18653/v1/2020.findings-emnlp.165",
    pages = "1823--1840"
}
 感谢 @JetRunner 、 @yuchenlin 、 @thomwolf 、 @lhoestq 添加此数据集。