数据集:
Aisha/BAAD16
BAAD16是一份针对孟加拉文学的作者归属数据集。它是由 this paper 的作者收集和分析的。使用自定义网络爬虫从在线孟加拉语电子图书馆抓取的文本创建的,包含了多位著名的孟加拉作家的文学作品。它包含了小说、故事、系列和其他16位作者的作品。每个样本文档包含750个字。这个数据集是不平衡的,更贴近真实世界的情况,其中并不是所有的作者都有大量的样本文本。下表提供了有关数据集的更多详细信息。
| Author Name | Number of Samples | Word Count | Unique Word | 
|---|---|---|---|
| zahir rayhan | 185 | 138k | 20k | 
| nazrul | 223 | 167k | 33k | 
| manik bandhopaddhay | 469 | 351k | 44k | 
| nihar ronjon gupta | 476 | 357k | 43k | 
| bongkim | 562 | 421k | 62k | 
| tarashonkor | 775 | 581k | 84k | 
| shottojit roy | 849 | 636k | 67k | 
| shordindu | 888 | 666k | 84k | 
| toslima nasrin | 931 | 698k | 76k | 
| shirshendu | 1048 | 786k | 69k | 
| zafar iqbal | 1100 | 825k | 53k | 
| robindronath | 1259 | 944k | 89k | 
| shorotchandra | 1312 | 984k | 78k | 
| shomresh | 1408 | 1056k | 69k | 
| shunil gongopaddhay | 1963 | 1472k | 109k | 
| humayun ahmed | 4518 | 3388k | 161k | 
| Total | 17,966 | 13,474,500 | 590,660 | 
| Average | 1,122.875 | 842,156.25 | 71,822.25 | 
如果您使用此数据集,请引用文献 Authorship Attribution in Bangla literature using Character-level CNN 和 Archive link 。
 @inproceedings{BAAD16Dataset,
  title={Authorship Attribution in Bangla literature using Character-level CNN},
  author={Khatun, Aisha and Rahman, Anisur and Islam, Md Saiful and others},
  booktitle={2019 22nd International Conference on Computer and Information Technology (ICCIT)},
  pages={1--5},
  year={2019},
  organization={IEEE}
  doi={10.1109/ICCIT48885.2019.9038560}
}
 这个数据集也在Mendeley上提供: BAAD16 dataset 。请确保使用最新版本的数据集。可以通过直接引用数据集来进行引用:
@misc{BAAD6Dataset,
  author = {Khatun, Aisha and Rahman, Anisur and Islam, Md. Saiful},
  title = {BAAD16: Bangla Authorship Attribution Dataset},
  year={2019},
  doi = {10.17632/6d9jrkgtvv.4},
  howpublished= {\url{https://data.mendeley.com/datasets/6d9jrkgtvv/4}}
  }