数据集:

ms_marco

语言:

en

预印本库:

arxiv:1611.09268
英文

"ms_marco"数据集的数据卡

数据集简介

从2016年的NIPS会议开始,MS MARCO是一系列专注于搜索中深度学习的数据集。

第一个数据集是一个问答数据集,包含10万个来自Bing的真实问题和人工生成的答案。从那时起,我们发布了一个100万个问题的数据集,一个自然语言生成的数据集,一个段落排序的数据集,一个关键词提取的数据集,一个抓取的数据集和一个对话式搜索数据集。

总共有277个提交。其中提供了20个关键词提取的提交,87个段落排序的提交,0个文档排序的提交,73个QnA V2的提交,82个NLGEN的提交和15个QnA V1的提交。

这些数据有三种任务/形式:原始的QnA数据集(v1.1),问题回答(v2.1),自然语言生成(v2.1)。

原始的问答数据集包含10万个样本,并于2016年发布。排行榜现已关闭,但数据在下方可用。

当前的竞争任务是问题回答和自然语言生成。问题回答中有超过100万个查询,它与原始的问答数据集类似,但规模更大且质量更高。自然语言生成数据集包含18万个样本,基于问答数据集,可以提供类似智能音箱所能说的答案。

版本v1.1

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

v1.1
  • 下载的数据集文件大小:168.69 MB
  • 生成的数据集大小:434.61 MB
  • 总使用磁盘空间大小:603.31 MB

“train”示例如下所示。

v2.1
  • 下载的数据集文件大小:1.38 GB
  • 生成的数据集大小:4.29 GB
  • 总使用磁盘空间大小:5.67 GB

“validation”示例如下所示。

数据字段

所有拆分之间的数据字段相同。

v1.1
  • answers:一系列字符串特征。
  • passages:包含以下内容的字典特征:
    • is_selected:int32特征。
    • passage_text:字符串特征。
    • url:字符串特征。
  • query:字符串特征。
  • query_id:int32特征。
  • query_type:字符串特征。
  • wellFormedAnswers:一系列字符串特征。
v2.1
  • answers:一系列字符串特征。
  • passages:包含以下内容的字典特征:
    • is_selected:int32特征。
    • passage_text:字符串特征。
    • url:字符串特征。
  • query:字符串特征。
  • query_id:int32特征。
  • query_type:字符串特征。
  • wellFormedAnswers:一系列字符串特征。

数据拆分

name train validation test
v1.1 82326 10047 9650
v2.1 808731 101093 101092

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{DBLP:journals/corr/NguyenRSGTMD16,
  author    = {Tri Nguyen and
               Mir Rosenberg and
               Xia Song and
               Jianfeng Gao and
               Saurabh Tiwary and
               Rangan Majumder and
               Li Deng},
  title     = {{MS} {MARCO:} {A} Human Generated MAchine Reading COmprehension Dataset},
  journal   = {CoRR},
  volume    = {abs/1611.09268},
  year      = {2016},
  url       = {http://arxiv.org/abs/1611.09268},
  archivePrefix = {arXiv},
  eprint    = {1611.09268},
  timestamp = {Mon, 13 Aug 2018 16:49:03 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/NguyenRSGTMD16.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}
}

贡献者

感谢 @mariamabarham @thomwolf @lewtun 添加此数据集。