数据集:

tomekkorbak/pile-detoxify

任务:

文本分类

task_categories:other

子任务:

acceptability-classification hate-speech-detection text-scoring

语言:

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

extended|the_pile

预印本库:

arxiv:1907.11692 arxiv:2101.00027

其他:

toxicity pretraining-with-human-feedback

许可:

mit

数据集介绍文件清单

英文

数据集卡片： pile-pii-scrubadub

数据集摘要

此数据集包含来自 The Pile 的文本，根据每个句子的毒性进行注释。每个文档（数据集中的一行）被分割成句子，并为每个句子给出一个得分：通过 Detoxify 预测的毒性。

支持的任务和排行榜

[需要更多信息]

语言

此数据集来自 The Pile ，是英文文本。

数据集结构

数据实例

1949977

数据字段

texts（sequence）：文档中句子的列表，使用SpaCy分割
meta（dict）：原始数据来自于 The Pile 的部分
scores（sequence）：texts列中每个句子的得分，指示由 Detoxify 预测的毒性
avg_score（float64）：scores列中列出的得分的平均值
num_sents（int64）：文档中句子（和得分）的数量

数据拆分

仅有训练集

数据集创建

策划理由

这是来自 The Pile 的标记文本，是一个包含大量英文文本的数据集。对文本进行毒性评分，以便训练生成性语言模型避免生成有害的文本。

资源数据

初始数据收集和规范化

这是来自 The Pile 的标记文本。

源语言生成者是谁？

请参阅 The Pile 以获取数据集的来源。

注释

注释过程

使用 Detoxify 对每个句子进行了评分，它是一个有害评论分类器。我们使用了基于124M参数的 RoBERTa 的公正模型，并在 Jigsaw Unintended Bias in Toxicity Classification dataset 上进行了训练。

注释者是谁？

Detoxify

个人和敏感信息

此数据集包含最初包含在 The Pile 中的所有个人可识别信息和有毒文本。

使用数据时的注意事项

数据的社会影响

此数据集包含有毒文本和个人可识别信息的示例。（标有个人可识别信息的版本是 available here 。）请小心避免滥用有毒文本或通过公开信息使任何人处于危险之中。此数据集仅用于研究目的。我们不能保证所有有毒文本都已被检测到，也不能保证使用该数据训练的模型将避免生成有毒文本。我们不建议部署在该数据上训练的模型。

偏见讨论

此数据集包含The Pile中讨论的所有偏见。

其他已知限制

使用不完善的自动检测方法检测到此数据集中的有毒文本。我们不能保证标签的100％准确性。

其他信息

数据集策划者

The Pile

授权信息

来自 The Pile ：PubMed Central： MIT License

引用信息

待添加论文信息

贡献

The Pile

作者:

tomekkorbak

数据集大小:

6.98 GB