数据集:
squad_it
任务:
语言:
计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
extended|squad许可:
SQuAD-it 是由 SQuAD 数据集衍生而来,通过半自动方式将 SQuAD 数据集翻译成意大利语。它是一个大规模的数据集,用于意大利语上的事实型问题开放式问答任务。该数据集包含从原始英文数据集中产生的超过60,000个问题/答案对。数据集被分为训练集和测试集,以支持 QA 系统的基准测试的可重复性。
'train' 的一个示例如下所示。
This example was too long and was cropped:
{
"answers": "{\"answer_start\": [243, 243, 243, 243, 243], \"text\": [\"evitare di essere presi di mira dal boicottaggio\", \"evitare di essere pres...",
"context": "\"La crisi ha avuto un forte impatto sulle relazioni internazionali e ha creato una frattura all' interno della NATO. Alcune nazi...",
"id": "5725b5a689a1e219009abd28",
"question": "Perchè le nazioni europee e il Giappone si sono separati dagli Stati Uniti durante la crisi?"
}
所有拆分的数据字段相同。
default| name | train | test |
|---|---|---|
| default | 54159 | 7609 |
@InProceedings{10.1007/978-3-030-03840-3_29,
author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
title="Neural Learning for Question Answering in Italian",
booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
year="2018",
publisher="Springer International Publishing",
address="Cham",
pages="389--402",
isbn="978-3-030-03840-3"
}
感谢 @thomwolf 、 @lewtun 、 @albertvillanova 、 @mariamabarham 、 @patrickvonplaten 添加了该数据集。