数据集:
AmazonScience/mintaka
任务:
子任务:
open-domain-qa大小:
100K<n<1M语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
Mintaka是一个由MTurk工作者提取、用Wikidata问题和答案实体进行注释的复杂、自然和多语言问答(QA)数据集,包含20,000个问题-答案对。有关Mintaka数据集的详细信息可以在我们的论文中找到: https://aclanthology.org/2022.coling-1.138/
为了构建Mintaka,我们明确收集了8种复杂度类型的问题,以及通用问题:
Mintaka是第一个可以用于端到端问答模型的大规模复杂、自然和多语言数据集之一。
该数据集可以用于训练问答模型。为了确保可比较性,请参考我们的评估脚本: https://github.com/amazon-science/mintaka#evaluation
所有问题均以英语编写,并翻译为其他8种语言:阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。
“train”示例如下。
{
  "id": "a9011ddf",
  "lang": "en",
  "question": "What is the seventh tallest mountain in North America?",
  "answerText": "Mount Lucania",
  "category": "geography",
  "complexityType": "ordinal",
  "questionEntity":
  [
      {
          "name": "Q49",
          "entityType": "entity",
          "label": "North America",
          "mention": "North America",
          "span": [40, 53]
      },
      {
          "name": 7,
          "entityType": "ordinal",
          "mention": "seventh",
          "span": [12, 19]
      }
  ],
  "answerEntity":
  [
      {
          "name": "Q1153188",
          "label": "Mount Lucania",
      }
  ],
}
 所有拆分的数据字段相同。
id:给定样本的唯一ID。
lang:问题的语言。
question:对应语言中的原始问题。
answerText:用英语提取的原始答案文本。
category:问题的类别。选项有:地理、电影、历史、书籍、政治、音乐、电子游戏或体育。
complexityType:问题的复杂度类型。选项有:序数、交集、计数、最高级、是/否比较、多跳、差异或通用。
questionEntity:由众包工作者标注的注释问题实体列表。
{
     "name": The Wikidata Q-code or numerical value of the entity
     "entityType": The type of the entity. Options are:
             entity, cardinal, ordinal, date, time, percent, quantity, or money
     "label": The label of the Wikidata Q-code
     "mention": The entity as it appears in the English question text. Will be empty for non-English samples.
     "span": The start and end characters of the mention in the English question text. Will be empty for non-English samples.
}
 answerEntity:由众包工作者标注的注释答案实体列表。
{
     "name": The Wikidata Q-code or numerical value of the entity
     "label": The label of the Wikidata Q-code
}
 对于每种语言,我们将其分为训练集(14,000个样本)、验证集(2,000个样本)和测试集(4,000个样本)。
该语料库不包含个人或敏感信息。
Amazon Alexa AI。
该项目在CC-BY-4.0许可下发布。
使用该数据集时,请引用以下论文。
@inproceedings{sen-etal-2022-mintaka,
    title = "Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering",
    author = "Sen, Priyanka  and
      Aji, Alham Fikri  and
      Saffari, Amir",
    booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
    month = oct,
    year = "2022",
    address = "Gyeongju, Republic of Korea",
    publisher = "International Committee on Computational Linguistics",
    url = "https://aclanthology.org/2022.coling-1.138",
    pages = "1604--1619"
}
 感谢 @afaji 添加了这个数据集。