数据集:
mkqa
任务:
子任务:
open-domain-qa大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced预印本库:
arxiv:2007.15207许可:
MKQA包含从 Google Natural Questions dataset 中抽样得到的10,000个查询。
对于每个查询,我们收集独立于段落的新回答。然后将这些查询和回答翻译成25种非英语语言。
问答
| Language code | Language name |
|---|---|
| ar | Arabic |
| da | Danish |
| de | German |
| en | English |
| es | Spanish |
| fi | Finnish |
| fr | French |
| he | Hebrew |
| hu | Hungarian |
| it | Italian |
| ja | Japanese |
| ko | Korean |
| km | Khmer |
| ms | Malay |
| nl | Dutch |
| no | Norwegian |
| pl | Polish |
| pt | Portuguese |
| ru | Russian |
| sv | Swedish |
| th | Thai |
| tr | Turkish |
| vi | Vietnamese |
| zh_cn | Chinese (Simplified) |
| zh_hk | Chinese (Hong kong) |
| zh_tw | Chinese (Traditional) |
数据集中的一个示例如下所示:
{
'example_id': 563260143484355911,
'queries': {
'en': "who sings i hear you knocking but you can't come in",
'ru': "кто поет i hear you knocking but you can't come in",
'ja': '「 I hear you knocking」は誰が歌っていますか',
'zh_cn': "《i hear you knocking but you can't come in》是谁演唱的",
...
},
'query': "who sings i hear you knocking but you can't come in",
'answers': {'en': [{'type': 'entity',
'entity': 'Q545186',
'text': 'Dave Edmunds',
'aliases': []}],
'ru': [{'type': 'entity',
'entity': 'Q545186',
'text': 'Эдмундс, Дэйв',
'aliases': ['Эдмундс', 'Дэйв Эдмундс', 'Эдмундс Дэйв', 'Dave Edmunds']}],
'ja': [{'type': 'entity',
'entity': 'Q545186',
'text': 'デイヴ・エドモンズ',
'aliases': ['デーブ・エドモンズ', 'デイブ・エドモンズ']}],
'zh_cn': [{'type': 'entity', 'text': '戴维·埃德蒙兹 ', 'entity': 'Q545186'}],
...
},
}
数据集中的每个示例都包含唯一的自然问题 example_id ,然后是原始的英语查询 query ,以及26种语言的查询和回答。每个回答都带有一个回答类型标签。具体情况如下所示:
| Answer Type | Occurrence |
|---|---|
| entity | 4221 |
| long_answer | 1815 |
| unanswerable | 1427 |
| date | 1174 |
| number | 485 |
| number_with_unit | 394 |
| short_phrase | 346 |
| binary | 138 |
对于每种语言,可以有多个可接受的文本答案,以捕捉可能的有效答案的多样性。
从 here 中获取字段的详细解释
当实体字段不可用时,将其设置为空字符串''。当别名字段不可用时,将其设置为空列表[]。
[需要更多信息]
Google Natural Questions dataset
初始数据收集和归一化[需要更多信息]
谁是源语言的制作人?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{mkqa,
title = {MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering},
author = {Shayne Longpre and Yi Lu and Joachim Daiber},
year = {2020},
URL = {https://arxiv.org/pdf/2007.15207.pdf}
}
感谢 @cceyda 添加该数据集。