数据集:

mlqa

任务:

问答

子任务:

extractive-qa

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original
英文

"mlqa"的数据集卡片

数据集概述

MLQA (MultiLingual Question Answering) is a benchmark dataset for evaluating cross-lingual question answering performance.
MLQA consists of over 5K extractive QA instances (12K in English) in SQuAD format in seven languages - English, Arabic,
German, Spanish, Hindi, Vietnamese and Simplified Chinese. MLQA is highly parallel, with QA instances parallel between
4 different languages on average.

支持的任务和排行榜

More Information Needed

语言

MLQA包含7种语言的问答实例,即英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文。

数据集结构

数据实例

mlqa-translate-test.ar
  • 下载的数据集文件大小: 10.08 MB
  • 生成的数据集大小: 5.48 MB
  • 使用的总磁盘空间: 15.56 MB

'test'的一个示例如下所示。

mlqa-translate-test.de
  • 下载的数据集文件大小: 10.08 MB
  • 生成的数据集大小: 3.88 MB
  • 使用的总磁盘空间: 13.96 MB

'test'的一个示例如下所示。

mlqa-translate-test.es
  • 下载的数据集文件大小: 10.08 MB
  • 生成的数据集大小: 3.92 MB
  • 使用的总磁盘空间: 13.99 MB

'test'的一个示例如下所示。

mlqa-translate-test.hi
  • 下载的数据集文件大小: 10.08 MB
  • 生成的数据集大小: 4.61 MB
  • 使用的总磁盘空间: 14.68 MB

'test'的一个示例如下所示。

mlqa-translate-test.vi
  • 下载的数据集文件大小: 10.08 MB
  • 生成的数据集大小: 6.00 MB
  • 使用的总磁盘空间: 16.07 MB

'test'的一个示例如下所示。

数据字段

所有拆分的数据字段相同。

mlqa-translate-test.ar
  • context : 一个string类型的特征。
  • question : 一个string类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个int32类型的特征。
    • text : 一个string类型的特征。
  • id : 一个string类型的特征。
mlqa-translate-test.de
  • context : 一个string类型的特征。
  • question : 一个string类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个int32类型的特征。
    • text : 一个string类型的特征。
  • id : 一个string类型的特征。
mlqa-translate-test.es
  • context : 一个string类型的特征。
  • question : 一个string类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个int32类型的特征。
    • text : 一个string类型的特征。
  • id : 一个string类型的特征。
mlqa-translate-test.hi
  • context : 一个string类型的特征。
  • question : 一个string类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个int32类型的特征。
    • text : 一个string类型的特征。
  • id : 一个string类型的特征。
mlqa-translate-test.vi
  • context : 一个string类型的特征。
  • question : 一个string类型的特征。
  • answers : 一个包含以下内容的字典特征:
    • answer_start : 一个int32类型的特征。
    • text : 一个string类型的特征。
  • id : 一个string类型的特征。

数据拆分

name test
mlqa-translate-test.ar 5335
mlqa-translate-test.de 4517
mlqa-translate-test.es 5253
mlqa-translate-test.hi 4918
mlqa-translate-test.vi 5495

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的制作者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{lewis2019mlqa,
  title = {MLQA: Evaluating Cross-lingual Extractive Question Answering},
  author = {Lewis, Patrick and Oguz, Barlas and Rinott, Ruty and Riedel, Sebastian and Schwenk, Holger},
  journal = {arXiv preprint arXiv:1910.07475},
  year = 2019,
  eid = {arXiv: 1910.07475}
}

贡献者

感谢 @patrickvonplaten , @M-Salti , @lewtun , @thomwolf , @mariamabarham , @lhoestq 添加此数据集。