数据集:
Aisha/BAAD16
BAAD16是一份针对孟加拉文学的作者归属数据集。它是由 this paper 的作者收集和分析的。使用自定义网络爬虫从在线孟加拉语电子图书馆抓取的文本创建的,包含了多位著名的孟加拉作家的文学作品。它包含了小说、故事、系列和其他16位作者的作品。每个样本文档包含750个字。这个数据集是不平衡的,更贴近真实世界的情况,其中并不是所有的作者都有大量的样本文本。下表提供了有关数据集的更多详细信息。
| Author Name | Number of Samples | Word Count | Unique Word |
|---|---|---|---|
| zahir rayhan | 185 | 138k | 20k |
| nazrul | 223 | 167k | 33k |
| manik bandhopaddhay | 469 | 351k | 44k |
| nihar ronjon gupta | 476 | 357k | 43k |
| bongkim | 562 | 421k | 62k |
| tarashonkor | 775 | 581k | 84k |
| shottojit roy | 849 | 636k | 67k |
| shordindu | 888 | 666k | 84k |
| toslima nasrin | 931 | 698k | 76k |
| shirshendu | 1048 | 786k | 69k |
| zafar iqbal | 1100 | 825k | 53k |
| robindronath | 1259 | 944k | 89k |
| shorotchandra | 1312 | 984k | 78k |
| shomresh | 1408 | 1056k | 69k |
| shunil gongopaddhay | 1963 | 1472k | 109k |
| humayun ahmed | 4518 | 3388k | 161k |
| Total | 17,966 | 13,474,500 | 590,660 |
| Average | 1,122.875 | 842,156.25 | 71,822.25 |
如果您使用此数据集,请引用文献 Authorship Attribution in Bangla literature using Character-level CNN 和 Archive link 。
@inproceedings{BAAD16Dataset,
title={Authorship Attribution in Bangla literature using Character-level CNN},
author={Khatun, Aisha and Rahman, Anisur and Islam, Md Saiful and others},
booktitle={2019 22nd International Conference on Computer and Information Technology (ICCIT)},
pages={1--5},
year={2019},
organization={IEEE}
doi={10.1109/ICCIT48885.2019.9038560}
}
这个数据集也在Mendeley上提供: BAAD16 dataset 。请确保使用最新版本的数据集。可以通过直接引用数据集来进行引用:
@misc{BAAD6Dataset,
author = {Khatun, Aisha and Rahman, Anisur and Islam, Md. Saiful},
title = {BAAD16: Bangla Authorship Attribution Dataset},
year={2019},
doi = {10.17632/6d9jrkgtvv.4},
howpublished= {\url{https://data.mendeley.com/datasets/6d9jrkgtvv/4}}
}