数据集:
castorini/mr-tydi-corpus
Mr. TyDi是基于TyDi构建的覆盖十一种不同语言的多语种基准数据集。它专为单语检索而设计,特别用于评估学习得到的稠密表示的排名效果。
这个数据集保存了Mr. TyDi的文档。要获取查询和判断信息,请参考 castorini/mr-tydi 。
这里只有一种配置,就是语言。由于所有三个数据折(训练集、开发集和测试集)共享相同的语料库,每种语言下只有一个折“训练集”,与 castorini/mr-tydi 不同。
文档数据条目的例子如下所示:
{
'docid': '25#0',
'title': 'Autism',
'text': 'Autism is a developmental disorder characterized by difficulties with social interaction and communication, ...'
}
加载数据集的示例:
language = 'english'
dataset = load_dataset('castorini/mr-tydi-corpus', language, 'train')
@article{mrtydi,
title={{Mr. TyDi}: A Multi-lingual Benchmark for Dense Retrieval},
author={Xinyu Zhang and Xueguang Ma and Peng Shi and Jimmy Lin},
year={2021},
journal={arXiv:2108.08787},
}