数据集:
tydiqa
任务:
子任务:
extractive-qa计算机处理:
multilingual语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|wikipedia许可:
TyDi QA是一个涵盖了11种语言的问题回答数据集,包含20.4万个问答对。TyDi QA的语言在其类型上是多样的,即每种语言表达的语言特征的集合,因此我们希望在这个数据集上表现良好的模型能够推广到世界上大多数的语言。它包含了英语语料库中找不到的语言现象。为了提供一个真实的信息搜索任务并避免引导效应,问题是由想要知道答案但不知道答案的人编写的(与SQuAD及其后代不同),数据是直接在每种语言中收集而不使用翻译(与MLQA和XQuAD不同)。
"验证"的一个示例如下。
This example was too long and was cropped:
{
    "annotations": {
        "minimal_answers_end_byte": [-1, -1, -1],
        "minimal_answers_start_byte": [-1, -1, -1],
        "passage_answer_candidate_index": [-1, -1, -1],
        "yes_no_answer": ["NONE", "NONE", "NONE"]
    },
    "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร  (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
    "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
    "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
    "language": "thai",
    "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
    "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}
 secondary_task "验证"的一个示例如下。
This example was too long and was cropped:
{
    "answers": {
        "answer_start": [394],
        "text": ["بطولتين"]
    },
    "context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...",
    "id": "arabic-2387335860751143628-1",
    "question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...",
    "title": "قائمة نهائيات كأس العالم"
}
 数据字段在所有拆分中是相同的。
primary_task| name | train | validation | 
|---|---|---|
| primary_task | 166916 | 18670 | 
| secondary_task | 49881 | 5077 | 
@article{tydiqa,
title   = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author  = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year    = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}
 感谢 @thomwolf , @albertvillanova , @lewtun , @patrickvonplaten 添加此数据集。