数据集:
Aisha/BAAD6
BAAD6是一种用于孟加拉文学的作者归属数据集。它由Hemayet等人收集和分析。数据是从不同的在线帖子和博客获取的。该数据集在6个作者之间平衡,并且每个作者有350个样本文本。这是一个相对较小的数据集,但由于其收集来源和清理过程,存在噪音。尽管如此,它可以帮助评估作者归属系统,因为它类似于互联网上经常出现的文本。有关数据集的详细信息请参见下表。
| Author | Samples | Word count | Unique word | 
|---|---|---|---|
| fe | 350 | 357k | 53k | 
| ij | 350 | 391k | 72k | 
| mk | 350 | 377k | 47k | 
| rn | 350 | 231k | 50k | 
| hm | 350 | 555k | 72k | 
| rg | 350 | 391k | 58k | 
| Total | 2,100 | 2,304,338 | 230,075 | 
| Average | 350 | 384,056.33 | 59,006.67 | 
如果您使用该数据集,请引用该论文。
@INPROCEEDINGS{BAAD6Dataset,
  author={Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Islam, Md. Saiful},
  booktitle={2018 21st International Conference of Computer and Information Technology (ICCIT)}, 
  title={A Comparative Analysis of Word Embedding Representations in Authorship Attribution of Bengali Literature}, 
  year={2018},
  volume={},
  number={},
  pages={1-6},
  doi={10.1109/ICCITECHN.2018.8631977}
  }
 此数据集也可在Mendeley上找到。请务必使用数据集的最新版本。通过以下方式直接引用数据集:
@misc{BAAD6Dataset,
  author = {Ahmed Chowdhury, Hemayet and Haque Imon, Md. Azizul and Khatun, Aisha and Islam, Md. Saiful},
  title = {BAAD6: Bangla Authorship Attribution Dataset},
  year={2018},
  doi = {10.17632/w9wkd7g43f.5},
  howpublished= {\url{https://data.mendeley.com/datasets/w9wkd7g43f/5}}
  }