数据集:
SZTAKI-HLT/HunSum-1
HunSum-1 数据集是一个包含超过1.1M个独特新闻文章以及引言和其他元数据的匈牙利语数据集。该数据集包含来自9个主要匈牙利新闻网站的文章。
HunSum-1 数据集有3个拆分:train(训练集)、validation(验证集)和test(测试集)。
| Dataset Split | Number of Instances in Split |
|---|---|
| Train | 1,144,255 |
| Validation | 1996 |
| Test | 1996 |
如果您使用了我们的数据集,请引用以下论文:
@inproceedings {HunSum-1,
title = {{HunSum-1: an Abstractive Summarization Dataset for Hungarian}},
booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
year = {2023},
publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
address = {Szeged, Magyarország},
author = {Barta, Botond and Lakatos, Dorina and Nagy, Attila and Nyist, Mil{\'{a}}n Konor and {\'{A}}cs, Judit},
pages = {231--243}
}