数据集:
civil_comments
此数据集中的评论来自 Civil Comments 平台的存档,该平台是一个独立新闻站点的评论插件。这些公共评论创建于2015年至2017年,并出现在世界范围内约50个英语新闻网站上。当 Civil Comments 在2017年关闭时,选择将公共评论以持久的方式提供在一个开放的存档中,以便进行将来的研究。原始数据在 figshare 上发布,包括公共评论文本、一些相关元数据,如文章 ID、时间戳和评论者生成的“礼貌性”标签,但不包括用户 ID。Jigsaw 通过添加有毒性和身份提及的其他标签扩展了此数据集。该数据集是 Jigsaw 在 Kaggle 挑战“Jigsaw 不良偏见毒性分类”中发布的数据的精确副本。该数据集以 CC0 许可发布,底层评论文本也是如此。
'validation' 的一个示例如下所示。
{
"identity_attack": 0.0,
"insult": 0.0,
"obscene": 0.0,
"severe_toxicity": 0.0,
"sexual_explicit": 0.0,
"text": "The public test.",
"threat": 0.0,
"toxicity": 0.0
}
所有拆分的数据字段相同。
default| name | train | validation | test |
|---|---|---|---|
| default | 1804874 | 97320 | 97320 |
此数据集的许可是 CC0 1.0 。
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
感谢 @lewtun , @patrickvonplaten , @thomwolf 添加此数据集。