数据集:
squad
任务:
子任务:
extractive-qa语言:
计算机处理:
monolingual大小:
10K<n<100K批注创建人:
crowdsourced源数据集:
extended|wikipedia预印本库:
arxiv:1606.05250许可:
斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由众包工人对一组维基百科文章提出问题,每个问题的答案都是对应阅读段落中的文本片段(或范围),或者问题可能无法回答。
“train”集合的示例如下所示。
{
    "answers": {
        "answer_start": [1],
        "text": ["This is a test text"]
    },
    "context": "This is a test context.",
    "id": "1",
    "question": "Is this a test?",
    "title": "train test"
}
 所有分割数据集的数据字段都相同。
plain_text| name | train | validation | 
|---|---|---|
| plain_text | 87599 | 10570 | 
@article{2016arXiv160605250R,
       author = {{Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}
 感谢 @lewtun 、 @albertvillanova 、 @patrickvonplaten 、 @thomwolf 添加该数据集。