数据集摘要

Mr. TyDi是基于TyDi构建的覆盖十一种不同语言的多语种基准数据集。它专为单语检索而设计，特别用于评估学习得到的稠密表示的排名效果。

这个数据集保存了Mr. TyDi的文档。要获取查询和判断信息，请参考 castorini/mr-tydi 。

数据集结构

这里只有一种配置，就是语言。由于所有三个数据折（训练集、开发集和测试集）共享相同的语料库，每种语言下只有一个折“训练集”，与 castorini/mr-tydi 不同。

文档数据条目的例子如下所示：

{
  'docid': '25#0', 
  'title': 'Autism', 
  'text': 'Autism is a developmental disorder characterized by difficulties with social interaction and communication, ...'
}

加载数据集

加载数据集的示例：

language = 'english'
dataset = load_dataset('castorini/mr-tydi-corpus', language, 'train')

引用信息

@article{mrtydi,
      title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval}, 
      author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin},
      year={2021},
      journal={arXiv:2108.08787},
}

作者:

castorini

数据集大小:

8.38 GB