数据集:
AmazonScience/mintaka
任务:
子任务:
open-domain-qa大小:
100K<n<1M语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
Mintaka是一个由MTurk工作者提取、用Wikidata问题和答案实体进行注释的复杂、自然和多语言问答(QA)数据集,包含20,000个问题-答案对。有关Mintaka数据集的详细信息可以在我们的论文中找到: https://aclanthology.org/2022.coling-1.138/
为了构建Mintaka,我们明确收集了8种复杂度类型的问题,以及通用问题:
Mintaka是第一个可以用于端到端问答模型的大规模复杂、自然和多语言数据集之一。
该数据集可以用于训练问答模型。为了确保可比较性,请参考我们的评估脚本: https://github.com/amazon-science/mintaka#evaluation
所有问题均以英语编写,并翻译为其他8种语言:阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。
“train”示例如下。
{
"id": "a9011ddf",
"lang": "en",
"question": "What is the seventh tallest mountain in North America?",
"answerText": "Mount Lucania",
"category": "geography",
"complexityType": "ordinal",
"questionEntity":
[
{
"name": "Q49",
"entityType": "entity",
"label": "North America",
"mention": "North America",
"span": [40, 53]
},
{
"name": 7,
"entityType": "ordinal",
"mention": "seventh",
"span": [12, 19]
}
],
"answerEntity":
[
{
"name": "Q1153188",
"label": "Mount Lucania",
}
],
}
所有拆分的数据字段相同。
id:给定样本的唯一ID。
lang:问题的语言。
question:对应语言中的原始问题。
answerText:用英语提取的原始答案文本。
category:问题的类别。选项有:地理、电影、历史、书籍、政治、音乐、电子游戏或体育。
complexityType:问题的复杂度类型。选项有:序数、交集、计数、最高级、是/否比较、多跳、差异或通用。
questionEntity:由众包工作者标注的注释问题实体列表。
{
"name": The Wikidata Q-code or numerical value of the entity
"entityType": The type of the entity. Options are:
entity, cardinal, ordinal, date, time, percent, quantity, or money
"label": The label of the Wikidata Q-code
"mention": The entity as it appears in the English question text. Will be empty for non-English samples.
"span": The start and end characters of the mention in the English question text. Will be empty for non-English samples.
}
answerEntity:由众包工作者标注的注释答案实体列表。
{
"name": The Wikidata Q-code or numerical value of the entity
"label": The label of the Wikidata Q-code
}
对于每种语言,我们将其分为训练集(14,000个样本)、验证集(2,000个样本)和测试集(4,000个样本)。
该语料库不包含个人或敏感信息。
Amazon Alexa AI。
该项目在CC-BY-4.0许可下发布。
使用该数据集时,请引用以下论文。
@inproceedings{sen-etal-2022-mintaka,
title = "Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering",
author = "Sen, Priyanka and
Aji, Alham Fikri and
Saffari, Amir",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.138",
pages = "1604--1619"
}
感谢 @afaji 添加了这个数据集。