数据集:
classla/FRENK-hate-en
英语子集包含在 FRENK dataset 中。在HuggingFace数据集中心也可以找到: Croatian subset , Slovenian subset 。
原始FRENK数据集包含来自克罗地亚、英国和斯洛文尼亚主流媒体社交媒体帖子(新闻文章)的评论,主题涉及移民和LGBT。数据集包含完整的讨论线程。每个评论都标有社会不可接受言论的类型(例如,不适当的、冒犯性的、暴力的言论)以及其目标(例如,移民/LGBT、评论者、媒体)。注释模式在[ https://arxiv.org/pdf/1906.02045.pdf] ]中有详细描述。元数据中的用户名已伪匿名化并从评论中删除。
每种语言(克罗地亚语(hr)、英语(en)、斯洛文尼亚语(sl))和主题(移民、LGBT)的数据都分为训练和测试部分。训练和测试数据由单独的讨论线程组成,即训练和测试数据之间没有跨讨论线程的污染。拆分的大小如下:克罗地亚移民:训练评论4356条,测试评论978条;克罗地亚LGBT:训练评论4494条,测试评论1142条;英语移民:训练评论4540条,测试评论1285条;英语LGBT:训练评论4819条,测试评论1017条;斯洛文尼亚移民:训练评论5145条,测试评论1277条;斯洛文尼亚LGBT:训练评论2842条,测试评论900条。
对于该数据集,仅使用了英语数据。训练部分被分为开头的90%(作为训练拆分发布)和结尾的10%(作为开发拆分发布)。
import datasets
ds = datasets.load_dataset("classla/FRENK-hate-en","binary")
对于二元分类,使用以下编码:
_CLASS_MAP_BINARY = {
'Acceptable': 0,
'Offensive': 1,
}
如果使用multiclass选项加载数据集,则可用原始标签:
import datasets
ds = datasets.load_dataset("5roop/FRENK-hate-en","multiclass").
在这种情况下使用的编码是:
_CLASS_MAP_MULTICLASS = {
'Acceptable speech': 0,
'Inappropriate': 1,
'Background offensive': 2,
'Other offensive': 3,
'Background violence': 4,
'Other violence': 5,
}
如果使用multiclass选项加载数据集,则可用原始标签:
import datasets
ds = datasets.load_dataset("classla/FRENK-hate-en","multiclass").
在这种情况下使用的编码是:
_CLASS_MAP_MULTICLASS = {
'Acceptable speech': 0,
'Inappropriate': 1,
'Background offensive': 2,
'Other offensive': 3,
'Background violence': 4,
'Other violence': 5,
}
{'text': "Not everyone has the option of a rainbow reaction; I don't but wish I did.",
'target': 'No target',
'topic': 'lgbt',
'label': 0}
CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0
使用此数据集时,请引用以下论文:
@misc{ljubešić2019frenk,
title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English},
author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec},
year={2019},
eprint={1906.02045},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/1906.02045}
}
可以引用原始数据集为
@misc{11356/1433,
title = {Offensive language dataset of Croatian, English and Slovenian comments {FRENK} 1.0},
author = {Ljube{\v s}i{\'c}, Nikola and Fi{\v s}er, Darja and Erjavec, Toma{\v z}},
url = {http://hdl.handle.net/11356/1433},
note = {Slovenian language resource repository {CLARIN}.{SI}},
copyright = {{CLARIN}.{SI} Licence {ACA} {ID}-{BY}-{NC}-{INF}-{NORED} 1.0},
year = {2021} }