数据集:
miracl/miracl-corpus
任务:
子任务:
document-retrieval计算机处理:
multilingual批注创建人:
expert-generated预印本库:
arxiv:2210.09984许可:
MIRACL 🌍🙌🌏(跨语言信息检索)是一个多语言检索数据集,重点关注18种不同语言的搜索,这些语言共拥有超过30亿的母语使用者。
该数据集包含16种“已知语言”的收集数据。另外两种“意外语言”将在稍后发布。
每种语言的语料库是从维基百科的转存数据中准备的,我们仅保留纯文本,舍弃图像、表格等。每篇文章都使用WikiExtractor根据自然语境单元(例如,wiki标记中的\n\n)进行了分段。这些段落中的每一个都包括一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。
每个检索单元包含三个字段:docid、title和text。以英文语料库的一个示例为例:
{
"docid": "39#0",
"title": "Albedo",
"text": "Albedo (meaning 'whiteness') is the measure of the diffuse reflection of solar radiation out of the total solar radiation received by an astronomical body (e.g. a planet like Earth). It is dimensionless and measured on a scale from 0 (corresponding to a black body that absorbs all incident radiation) to 1 (corresponding to a body that reflects all incident radiation)."
}
docid的模式为X#Y,其中具有相同X的所有段落来自同一篇维基百科文章,而Y表示该文章中的段落,按顺序编号。text字段包含段落的文本。title字段包含段落所属文章的名称。
可以使用以下方法加载数据集:
lang='ar' # or any of the 16 languages
miracl_corpus = datasets.load_dataset('miracl/miracl-corpus', lang)['train']
for doc in miracl_corpus:
docid = doc['docid']
title = doc['title']
text = doc['text']
下表包含每种语言的收集中的段落数量和维基百科文章数量,以及数据集和原始维基百科转存的链接。
| Language | # of Passages | # of Articles | Links | Raw Wiki Dump |
|---|---|---|---|---|
| Arabic (ar) | 2,061,414 | 656,982 | 1232321 | 1233321 |
| Bengali (bn) | 297,265 | 63,762 | 1234321 | 1235321 |
| English (en) | 32,893,221 | 5,758,285 | 1236321 | 1237321 |
| Spanish (es) | 10,373,953 | 1,669,181 | 1238321 | 1239321 |
| Persian (fa) | 2,207,172 | 857,827 | 12310321 | 12311321 |
| Finnish (fi) | 1,883,509 | 447,815 | 12312321 | 12313321 |
| French (fr) | 14,636,953 | 2,325,608 | 12314321 | 12315321 |
| Hindi (hi) | 506,264 | 148,107 | 12316321 | 12317321 |
| Indonesian (id) | 1,446,315 | 446,330 | 12318321 | 12319321 |
| Japanese (ja) | 6,953,614 | 1,133,444 | 12320321 | 12321321 |
| Korean (ko) | 1,486,752 | 437,373 | 12322321 | 12323321 |
| Russian (ru) | 9,543,918 | 1,476,045 | 12324321 | 12325321 |
| Swahili (sw) | 131,924 | 47,793 | 12326321 | 12327321 |
| Telugu (te) | 518,079 | 66,353 | 12328321 | 12329321 |
| Thai (th) | 542,166 | 128,179 | 12330321 | 12331321 |
| Chinese (zh) | 4,934,368 | 1,246,389 | 12332321 | 12333321 |