数据集:
HeNLP/HeDC4
希伯来语去重和清理过的Common Crawl语料库。这是一个经过彻底清理和近似去重的数据集,用于无监督学习。
如果你在研究中使用了HeDC4数据集,请引用 HeRo: RoBERTa and Longformer Hebrew Language Models 。
@article{shalumov2023hero,
title={HeRo: RoBERTa and Longformer Hebrew Language Models},
author={Vitaly Shalumov and Harel Haskey},
year={2023},
journal={arXiv:2304.11077},
}