数据集:

tomekkorbak/pile-pii-scrubadub

英文

pile-pii-scrubadub 数据集卡片

数据集概要

该数据集包含来自 The Pile 的文本,根据每个句子中的个人身份信息(PII)进行了注释。每个文档(数据集中的一行)被分割成句子,并给每个句子评分:根据 Scrubadub 将多少单词分类为PII的百分比。

支持的任务和排行榜

[需要更多信息]

语言

该数据集取自 The Pile ,即英文文本。

数据集结构

数据实例

1949977

数据字段

  • texts(sequence):文档中句子的列表(使用 SpaCy 进行分段)
  • meta(dict):它所来源的 The Pile 的部分
  • scores(sequence):texts列中每个句子的得分,指示被 Scrubadub 检测为PII的单词的百分比
  • avg_score(float64):scores列中列出的得分的平均值
  • num_sents(int64):该文档中句子(和得分)的数量

数据拆分

仅有训练集

数据集创建

策划理由

这是来自 The Pile 的标注文本,一个大型的英文文本数据集。对PII进行标注是为了训练生成式语言模型以避免生成PII。

源数据

初始数据收集和规范化

这是来自 The Pile 的标注文本。

资源语言的制作者是谁?

请参考 The Pile 获取数据集的来源。

注释

注释过程

对于每个句子,使用 Scrubadub 进行检测:

  • 电子邮件地址
  • 地址和邮政编码
  • 电话号码
  • 信用卡号码
  • 美国社会安全号码
  • 车牌号码
  • 出生日期
  • URL
  • 登录凭证
注释者是谁?

Scrubadub

个人和敏感信息

该数据集包含 The Pile 中最初包含的所有PII,并对所有检测到的PII进行了标注。

使用该数据的注意事项

数据的社会影响

该数据集包含真实PII的示例(在文本中方便地进行了注释!)。请注意避免滥用它或通过公开他们的信息使任何人处于危险之中。此数据集仅用于研究目的。我们无法保证已检测到所有PII,并且我们不能保证使用该数据训练的模型将避免生成PII。我们不建议部署在此数据上训练的模型。

数据偏差讨论

该数据集包含The Pile中讨论的所有偏差: https://arxiv.org/abs/2101.00027

其他已知限制

该数据集中的PII是使用不完美的自动检测方法检测出来的。我们不能保证标签的100%准确性。

其他信息

数据集策划者

The Pile

许可信息

来自 The Pile :PubMed Central: MIT License

引用信息

待添加的论文信息

贡献

The Pile