数据集:
neuclir/csl
任务:
子任务:
document-retrieval大小:
100K<n<1M批注创建人:
no-annotation源数据集:
extended|csl许可:
CSL 是中国科学文献数据集。
该数据集包含来自多个学术领域的中文论文的标题、摘要和关键词。
| Split | Documents |
|---|---|
| csl | 396k |
| en_translation | 396k |
en_translation 包含从谷歌翻译服务翻译的文档。所有文本均为英文,因此省略了 category_eng 和 discipline_eng 字段。
使用 🤗 Datasets:
from datasets import load_dataset
dataset = load_dataset('neuclir/csl')['csl']
该数据集基于 Apache 2.0 下的 Chinese Scientific Literature Dataset 。主要更改是添加了 doc_id、类别和学科描述的英文翻译(由本族语者完成),以及基本的去重。执行此修改的代码可在 this repository 中找到。
如果您使用了这些数据,请引用:
@inproceedings{li-etal-2022-csl,
title = "{CSL}: A Large-scale {C}hinese Scientific Literature Dataset",
author = "Li, Yudong and
Zhang, Yuqing and
Zhao, Zhe and
Shen, Linlin and
Liu, Weijie and
Mao, Weiquan and
Zhang, Hui",
booktitle = "Proceedings of the 29th International Conference on Computational Linguistics",
month = oct,
year = "2022",
address = "Gyeongju, Republic of Korea",
publisher = "International Committee on Computational Linguistics",
url = "https://aclanthology.org/2022.coling-1.344",
pages = "3917--3923",
}