数据集:

xcopa

任务:

问答

计算机处理:

multilingual

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended|copa

许可:

cc-by-4.0
英文

"xcopa" 数据集的数据卡片

数据集摘要

XCOPA(Causal Commonsense Reasoning跨语言选择可行替代)数据集是一个评估机器学习模型在不同语言之间迁移常识推理能力的基准。该数据集是英语COPA(Roemmele等人,2011)的翻译和重新注释,涵盖了来自全球11个家族的11种语言以及多个地区。该数据集具有挑战性,因为它要求同时掌握世界知识和泛化到新语言的能力。有关XCOPA的创建细节和基线实现的所有详细信息,请参阅论文。

Xcopa语言et

支持的任务和排行榜

More Information Needed

语言

  • et
  • ht
  • id
  • it
  • qu
  • sw
  • ta
  • th
  • tr
  • vi
  • zh

数据集结构

数据实例

et
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.07 MB
  • 总磁盘使用量:0.44 MB

"验证"的示例如下所示。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
ht
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.07 MB
  • 总磁盘使用量:0.44 MB

"验证"的示例如下所示。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
id
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.07 MB
  • 总磁盘使用量:0.45 MB

"验证"的示例如下所示。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
it
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.08 MB
  • 总磁盘使用量:0.45 MB

"验证"的示例如下所示。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
qu
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.08 MB
  • 总磁盘使用量:0.45 MB

"验证"的示例如下所示。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}

数据字段

数据字段在所有拆分中都是相同的。

et
  • premise:字符串特征。
  • choice1:字符串特征。
  • choice2:字符串特征。
  • question:字符串特征。
  • label:int32特征。
  • idx:int32特征。
  • changed:bool特征。
ht
  • premise:字符串特征。
  • choice1:字符串特征。
  • choice2:字符串特征。
  • question:字符串特征。
  • label:int32特征。
  • idx:int32特征。
  • changed:bool特征。
id
  • premise:字符串特征。
  • choice1:字符串特征。
  • choice2:字符串特征。
  • question:字符串特征。
  • label:int32特征。
  • idx:int32特征。
  • changed:bool特征。
it
  • premise:字符串特征。
  • choice1:字符串特征。
  • choice2:字符串特征。
  • question:字符串特征。
  • label:int32特征。
  • idx:int32特征。
  • changed:bool特征。
qu
  • premise:字符串特征。
  • choice1:字符串特征。
  • choice2:字符串特征。
  • question:字符串特征。
  • label:int32特征。
  • idx:int32特征。
  • changed:bool特征。

数据拆分

name validation test
et 100 500
ht 100 500
id 100 500
it 100 500
qu 100 500

数据集创建

策划原因

More Information Needed

来源数据

初始数据收集和归一化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集的创建者

More Information Needed

授权信息

Creative Commons Attribution 4.0 International (CC BY 4.0) .

引用信息

  @article{ponti2020xcopa,
  title={{XCOPA: A} Multilingual Dataset for Causal Commonsense Reasoning},
  author={Edoardo M. Ponti, Goran Glava
{s}, Olga Majewska, Qianchu Liu, Ivan Vuli'{c} and Anna Korhonen},
  journal={arXiv preprint},
  year={2020},
  url={https://ducdauge.github.io/files/xcopa.pdf}
}

@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011},
  url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF},
}

贡献

感谢 @patrickvonplaten @lewtun @thomwolf 提供此数据集。