数据集:

xquad

任务:

问答

子任务:

extractive-qa

计算机处理:

multilingual

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended|squad

预印本库:

arxiv:1910.11856
英文

"xquad" 数据集数据卡

数据集摘要

XQuAD(跨语言问答数据集)是一个用于评估跨语言问答性能的基准数据集。该数据集由来自SQuAD v1.1(Rajpurkar et al.,2016)开发集的240个段落和1190个问题-答案对的子集,以及它们在十种语言(西班牙语,德语,希腊语,俄语,土耳其语,阿拉伯语,越南语,泰语,中文和印地语)中的专业翻译组成。因此,该数据集在11种语言间完全平行。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

xquad.ar
  • 下载的数据集文件大小: 13.30 MB
  • 生成的数据集大小: 1.72 MB
  • 使用的总磁盘空间: 15.03 MB

'验证集'的一个例子如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [527],
        "text": ["136"]
    },
    "context": "\"Die Verteidigung der Panthers gab nur 308 Punkte ab und belegte den sechsten Platz in der Liga, während sie die NFL mit 24 Inte...",
    "id": "56beb4343aeaaa14008c925c",
    "question": "Wie viele Sacks erzielte Jared Allen in seiner Karriere?"
}
xquad.de
  • 下载的数据集文件大小: 13.30 MB
  • 生成的数据集大小: 1.29 MB
  • 使用的总磁盘空间: 14.59 MB

'验证集'的一个例子如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [527],
        "text": ["136"]
    },
    "context": "\"Die Verteidigung der Panthers gab nur 308 Punkte ab und belegte den sechsten Platz in der Liga, während sie die NFL mit 24 Inte...",
    "id": "56beb4343aeaaa14008c925c",
    "question": "Wie viele Sacks erzielte Jared Allen in seiner Karriere?"
}
xquad.el
  • 下载的数据集文件大小: 13.30 MB
  • 生成的数据集大小: 2.21 MB
  • 使用的总磁盘空间: 15.51 MB

'验证集'的一个例子如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [527],
        "text": ["136"]
    },
    "context": "\"Die Verteidigung der Panthers gab nur 308 Punkte ab und belegte den sechsten Platz in der Liga, während sie die NFL mit 24 Inte...",
    "id": "56beb4343aeaaa14008c925c",
    "question": "Wie viele Sacks erzielte Jared Allen in seiner Karriere?"
}
xquad.en
  • 下载的数据集文件大小: 13.30 MB
  • 生成的数据集大小: 1.12 MB
  • 使用的总磁盘空间: 14.42 MB

'验证集'的一个例子如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [527],
        "text": ["136"]
    },
    "context": "\"Die Verteidigung der Panthers gab nur 308 Punkte ab und belegte den sechsten Platz in der Liga, während sie die NFL mit 24 Inte...",
    "id": "56beb4343aeaaa14008c925c",
    "question": "Wie viele Sacks erzielte Jared Allen in seiner Karriere?"
}
xquad.es
  • 下载的数据集文件大小: 13.30 MB
  • 生成的数据集大小: 1.28 MB
  • 使用的总磁盘空间: 14.58 MB

'验证集'的一个例子如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [527],
        "text": ["136"]
    },
    "context": "\"Die Verteidigung der Panthers gab nur 308 Punkte ab und belegte den sechsten Platz in der Liga, während sie die NFL mit 24 Inte...",
    "id": "56beb4343aeaaa14008c925c",
    "question": "Wie viele Sacks erzielte Jared Allen in seiner Karriere?"
}

数据字段

所有拆分的数据字段相同。

xquad.ar
  • id : a string feature.
  • context : a string feature.
  • question : a string feature.
  • answers : a dictionary feature containing:
    • text : a string feature.
    • answer_start : a int32 feature.
xquad.de
  • id : a string feature.
  • context : a string feature.
  • question : a string feature.
  • answers : a dictionary feature containing:
    • text : a string feature.
    • answer_start : a int32 feature.
xquad.el
  • id : a string feature.
  • context : a string feature.
  • question : a string feature.
  • answers : a dictionary feature containing:
    • text : a string feature.
    • answer_start : a int32 feature.
xquad.en
  • id : a string feature.
  • context : a string feature.
  • question : a string feature.
  • answers : a dictionary feature containing:
    • text : a string feature.
    • answer_start : a int32 feature.
xquad.es
  • id : a string feature.
  • context : a string feature.
  • question : a string feature.
  • answers : a dictionary feature containing:
    • text : a string feature.
    • answer_start : a int32 feature.

数据拆分

name validation
xquad.ar 1190
xquad.de 1190
xquad.el 1190
xquad.en 1190
xquad.es 1190

数据集生成

策划原因

More Information Needed

原始数据

初始数据收集和规范化

More Information Needed

谁是源语言的制作者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

贡献者

感谢 @lewtun , @patrickvonplaten , @thomwolf 添加此数据集。