数据集:
neuclir/neuclir1
许可:
源数据集:
extended|c4批注创建人:
no-annotation语言创建人:
found大小:
1M<n<10M计算机处理:
multilingual子任务:
document-retrieval任务:
这是为TREC 2022 NeuCLIR任务创建的数据集。该数据集的设计与HC4类似,并且大部分来自HC4的文档都被转移到了这个数据集中。文档是来自Common Crawl的中文、波斯语和俄语的网页。
| Split | Documents | 
|---|---|
| fas (Persian) | 2.2M | 
| rus (Russian) | 4.6M | 
| zho (Chinese) | 3.2M | 
使用🤗 Datasets:
from datasets import load_dataset
dataset = load_dataset('neuclir/neuclir1')
dataset['fas'] # Persian documents
dataset['rus'] # Russian documents
dataset['zho'] # Chinese documents