数据集:
castorini/mr-tydi-corpus
Mr. TyDi是基于TyDi构建的覆盖十一种不同语言的多语种基准数据集。它专为单语检索而设计,特别用于评估学习得到的稠密表示的排名效果。
这个数据集保存了Mr. TyDi的文档。要获取查询和判断信息,请参考 castorini/mr-tydi 。
这里只有一种配置,就是语言。由于所有三个数据折(训练集、开发集和测试集)共享相同的语料库,每种语言下只有一个折“训练集”,与 castorini/mr-tydi 不同。
文档数据条目的例子如下所示:
{
  'docid': '25#0', 
  'title': 'Autism', 
  'text': 'Autism is a developmental disorder characterized by difficulties with social interaction and communication, ...'
}
 加载数据集的示例:
language = 'english'
dataset = load_dataset('castorini/mr-tydi-corpus', language, 'train')
 @article{mrtydi,
      title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, 
      author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin},
      year={2021},
      journal={arXiv:2108.08787},
}