数据集:
ms_marco
语言:
预印本库:
arxiv:1611.09268从2016年的NIPS会议开始,MS MARCO是一系列专注于搜索中深度学习的数据集。
第一个数据集是一个问答数据集,包含10万个来自Bing的真实问题和人工生成的答案。从那时起,我们发布了一个100万个问题的数据集,一个自然语言生成的数据集,一个段落排序的数据集,一个关键词提取的数据集,一个抓取的数据集和一个对话式搜索数据集。
总共有277个提交。其中提供了20个关键词提取的提交,87个段落排序的提交,0个文档排序的提交,73个QnA V2的提交,82个NLGEN的提交和15个QnA V1的提交。
这些数据有三种任务/形式:原始的QnA数据集(v1.1),问题回答(v2.1),自然语言生成(v2.1)。
原始的问答数据集包含10万个样本,并于2016年发布。排行榜现已关闭,但数据在下方可用。
当前的竞争任务是问题回答和自然语言生成。问题回答中有超过100万个查询,它与原始的问答数据集类似,但规模更大且质量更高。自然语言生成数据集包含18万个样本,基于问答数据集,可以提供类似智能音箱所能说的答案。
版本v1.1
“train”示例如下所示。
v2.1“validation”示例如下所示。
所有拆分之间的数据字段相同。
v1.1name | train | validation | test |
---|---|---|---|
v1.1 | 82326 | 10047 | 9650 |
v2.1 | 808731 | 101093 | 101092 |
@article{DBLP:journals/corr/NguyenRSGTMD16, author = {Tri Nguyen and Mir Rosenberg and Xia Song and Jianfeng Gao and Saurabh Tiwary and Rangan Majumder and Li Deng}, title = {{MS} {MARCO:} {A} Human Generated MAchine Reading COmprehension Dataset}, journal = {CoRR}, volume = {abs/1611.09268}, year = {2016}, url = {http://arxiv.org/abs/1611.09268}, archivePrefix = {arXiv}, eprint = {1611.09268}, timestamp = {Mon, 13 Aug 2018 16:49:03 +0200}, biburl = {https://dblp.org/rec/journals/corr/NguyenRSGTMD16.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } }
感谢 @mariamabarham , @thomwolf , @lewtun 添加此数据集。