数据集:
Aisha/BAAD6
BAAD6是一种用于孟加拉文学的作者归属数据集。它由Hemayet等人收集和分析。数据是从不同的在线帖子和博客获取的。该数据集在6个作者之间平衡,并且每个作者有350个样本文本。这是一个相对较小的数据集,但由于其收集来源和清理过程,存在噪音。尽管如此,它可以帮助评估作者归属系统,因为它类似于互联网上经常出现的文本。有关数据集的详细信息请参见下表。
| Author | Samples | Word count | Unique word |
|---|---|---|---|
| fe | 350 | 357k | 53k |
| ij | 350 | 391k | 72k |
| mk | 350 | 377k | 47k |
| rn | 350 | 231k | 50k |
| hm | 350 | 555k | 72k |
| rg | 350 | 391k | 58k |
| Total | 2,100 | 2,304,338 | 230,075 |
| Average | 350 | 384,056.33 | 59,006.67 |
如果您使用该数据集,请引用该论文。
@INPROCEEDINGS{BAAD6Dataset,
author={Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Islam, Md. Saiful},
booktitle={2018 21st International Conference of Computer and Information Technology (ICCIT)},
title={A Comparative Analysis of Word Embedding Representations in Authorship Attribution of Bengali Literature},
year={2018},
volume={},
number={},
pages={1-6},
doi={10.1109/ICCITECHN.2018.8631977}
}
此数据集也可在Mendeley上找到。请务必使用数据集的最新版本。通过以下方式直接引用数据集:
@misc{BAAD6Dataset,
author = {Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Khatun, Aisha and Islam, Md. Saiful},
title = {BAAD6: Bangla Authorship Attribution Dataset},
year={2018},
doi = {10.17632/w9wkd7g43f.5},
howpublished= {\url{https://data.mendeley.com/datasets/w9wkd7g43f/5}}
}