土耳其文毒性语言检测回应

数据集描述

数据集概述

这个文本数据集是从各个在线存在的冒犯性语言数据集中合并而来的土耳其文本集合。该数据集总共包含77,800个实例，每个实例都标记为冒犯性或非冒犯性。

为了确保数据集的完整性，我们使用了多个 transformer 模型来使用伪标签增强数据集。最终数据集的目标是成为土耳其冒犯性语言检测的综合资源。

该数据集提供的格式为 CSV，有关使用的合并数据集的更多详细信息，请参阅参考部分。

加载数据集

要使用 Huggingface 数据集，可以使用下面的代码片段：

from datasets import load_dataset

# If the dataset is gated/private, make sure you have run huggingface-cli login
dataset = load_dataset("Overfit-GM/turkish-toxic-language")

数据集结构

Dataset Information
Number of instances	77,800
Target label distribution
OTHER	37,663
PROFANITY	18,252
INSULT	10,777
RACIST	10,163
SEXIST	945
Number of offensive instances	40,137
Number of non-offensive instances	37,663
Data source distribution
Jigsaw Multilingual Toxic Comments	35,624
Turkish Offensive Language Detection Dataset	39,551
Turkish Cyberbullying Dataset	2,525

来源数据和参考资料

作者:

Overfit-GM

数据集大小:

17.38 MB