数据集:
Overfit-GM/turkish-toxic-language
这个文本数据集是从各个在线存在的冒犯性语言数据集中合并而来的土耳其文本集合。该数据集总共包含77,800个实例,每个实例都标记为冒犯性或非冒犯性。
为了确保数据集的完整性,我们使用了多个 transformer 模型来使用伪标签增强数据集。最终数据集的目标是成为土耳其冒犯性语言检测的综合资源。
该数据集提供的格式为 CSV,有关使用的合并数据集的更多详细信息,请参阅参考部分。
要使用 Huggingface 数据集,可以使用下面的代码片段:
from datasets import load_dataset
# If the dataset is gated/private, make sure you have run huggingface-cli login
dataset = load_dataset("Overfit-GM/turkish-toxic-language")
| Dataset Information | |
|---|---|
| Number of instances | 77,800 |
| Target label distribution | |
| OTHER | 37,663 |
| PROFANITY | 18,252 |
| INSULT | 10,777 |
| RACIST | 10,163 |
| SEXIST | 945 |
| Number of offensive instances | 40,137 |
| Number of non-offensive instances | 37,663 |
| Data source distribution | |
| Jigsaw Multilingual Toxic Comments | 35,624 |
| Turkish Offensive Language Detection Dataset | 39,551 |
| Turkish Cyberbullying Dataset | 2,525 |