数据集:
squad_it
任务:
语言:
计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
extended|squad许可:
SQuAD-it 是由 SQuAD 数据集衍生而来,通过半自动方式将 SQuAD 数据集翻译成意大利语。它是一个大规模的数据集,用于意大利语上的事实型问题开放式问答任务。该数据集包含从原始英文数据集中产生的超过60,000个问题/答案对。数据集被分为训练集和测试集,以支持 QA 系统的基准测试的可重复性。
'train' 的一个示例如下所示。
This example was too long and was cropped:
{
    "answers": "{\"answer_start\": [243, 243, 243, 243, 243], \"text\": [\"evitare di essere presi di mira dal boicottaggio\", \"evitare di essere pres...",
    "context": "\"La crisi ha avuto un forte impatto sulle relazioni internazionali e ha creato una frattura all' interno della NATO. Alcune nazi...",
    "id": "5725b5a689a1e219009abd28",
    "question": "Perchè le nazioni europee e il Giappone si sono separati dagli Stati Uniti durante la crisi?"
}
 所有拆分的数据字段相同。
default| name | train | test | 
|---|---|---|
| default | 54159 | 7609 | 
@InProceedings{10.1007/978-3-030-03840-3_29,
    author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
    editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
    title="Neural Learning for Question Answering in Italian",
    booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
    year="2018",
    publisher="Springer International Publishing",
    address="Cham",
    pages="389--402",
    isbn="978-3-030-03840-3"
}
 感谢 @thomwolf 、 @lewtun 、 @albertvillanova 、 @mariamabarham 、 @patrickvonplaten 添加了该数据集。