数据集:

tydiqa

任务:

问答

子任务:

extractive-qa

计算机处理:

multilingual

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

extended|wikipedia

许可:

apache-2.0
英文

"tydiqa"的数据集卡片

数据集摘要

TyDi QA是一个涵盖了11种语言的问题回答数据集,包含20.4万个问答对。TyDi QA的语言在其类型上是多样的,即每种语言表达的语言特征的集合,因此我们希望在这个数据集上表现良好的模型能够推广到世界上大多数的语言。它包含了英语语料库中找不到的语言现象。为了提供一个真实的信息搜索任务并避免引导效应,问题是由想要知道答案但不知道答案的人编写的(与SQuAD及其后代不同),数据是直接在每种语言中收集而不使用翻译(与MLQA和XQuAD不同)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

primary_task
  • 下载的数据集文件大小:1.95 GB
  • 生成的数据集大小:6.04 GB
  • 总硬盘使用量:7.99 GB

"验证"的一个示例如下。

This example was too long and was cropped:

{
    "annotations": {
        "minimal_answers_end_byte": [-1, -1, -1],
        "minimal_answers_start_byte": [-1, -1, -1],
        "passage_answer_candidate_index": [-1, -1, -1],
        "yes_no_answer": ["NONE", "NONE", "NONE"]
    },
    "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร  (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
    "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
    "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
    "language": "thai",
    "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
    "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}
secondary_task
  • 下载的数据集文件大小:1.95 GB
  • 生成的数据集大小:58.03 MB
  • 总硬盘使用量:2.01 GB

"验证"的一个示例如下。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [394],
        "text": ["بطولتين"]
    },
    "context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...",
    "id": "arabic-2387335860751143628-1",
    "question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...",
    "title": "قائمة نهائيات كأس العالم"
}

数据字段

数据字段在所有拆分中是相同的。

primary_task
  • passage_answer_candidates: 包含以下内容的字典特征:
    • plaintext_start_byte: int32 特征。
    • plaintext_end_byte: int32 特征。
  • question_text: 字符串特征。
  • document_title: 字符串特征。
  • language: 字符串特征。
  • annotations: 包含以下内容的字典特征:
    • passage_answer_candidate_index: int32 特征。
    • minimal_answers_start_byte: int32 特征。
    • minimal_answers_end_byte: int32 特征。
    • yes_no_answer: 字符串特征。
  • document_plaintext: 字符串特征。
  • document_url: 字符串特征。
secondary_task
  • id: 字符串特征。
  • title: 字符串特征。
  • context: 字符串特征。
  • question: 字符串特征。
  • answers: 包含以下内容的字典特征:
    • text: 字符串特征。
    • answer_start: int32 特征。

数据拆分

name train validation
primary_task 166916 18670
secondary_task 49881 5077

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策展人

More Information Needed

许可信息

More Information Needed

引用信息

@article{tydiqa,
title   = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author  = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year    = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}

贡献者

感谢 @thomwolf @albertvillanova @lewtun @patrickvonplaten 添加此数据集。