数据集:

openwebtext

语言:

en

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

cc0-1.0
英文

"openwebtext"数据集卡片

数据集摘要

这是来自OpenAI的WebText数据集的开源复制品,用于训练GPT-2。

此分发版由Brown University的Aaron Gokaslan和Vanya Cohen创建。

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

plain_text
  • 下载的数据集文件大小:13.51 GB
  • 生成的数据集大小:41.70 GB
  • 总磁盘使用量:55.21 GB

'train'的一个示例如下所示。

This example was too long and was cropped:

{
    "text": "\"A magazine supplement with an image of Adolf Hitler and the title 'The Unreadable Book' is pictured in Berlin. No law bans “Mei..."
}

数据字段

数据字段在所有拆分中是相同的。

plain_text
  • text:一个字符串特征。

数据拆分

name train
plain_text 8013769

数据集创建

策划理由

更多信息需要

资源数据

初始数据收集和规范化

作者首先从Reddit提交数据集中提取了所有Reddit帖子URL。这些链接被去重,过滤掉非HTML内容,然后随机洗牌。然后将这些链接分发到多台机器上进行并行下载,使用新闻Python包提取所有网页。使用Facebook FastText过滤掉非英语网页。

随后,使用局部敏感哈希(LSH)识别了近似重复的文档。文档被哈希为5-gram集合,移除了相似度阈值大于0.5的所有文档。然后对文档进行了标记化,并删除了少于128个标记的文档。这留下了来自8,013,769个文档的38GB文本数据(使用SI单位为40GB)。

资源语言制作者是谁?

更多信息需要

注释

数据集不包含注释。

个人和敏感信息

更多信息需要

使用数据的注意事项

数据的社会影响

更多信息需要

偏见讨论

更多信息需要

其他已知限制

更多信息需要

其他信息

数据集策划者

更多信息需要

许可信息

这些数据根据原始作者的许可方案发布( 来源

We do not own any of the text from which these data has been extracted.

We license the actual packaging of these parallel data under the [Creative Commons CC0 license (“no rights reserved”)](https://creativecommons.org/share-your-work/public-domain/cc0/)
通告政策

如果您认为我们的数据包含您拥有的材料,因此不应在此处复制,请:

明确标识您自己,提供详细的联系信息,例如您可以联系到的地址、电话号码或电子邮件地址。

明确定义所声称的侵权版权作品。

明确标识所声称的侵权材料,并提供合理的信息以使我们能够找到该材料。

并通过以下电子邮件地址联系我们:openwebtext@gmail.com和datasets@huggingface.co

下架政策

原始作者将按照合法请求的要求删除受影响的来源,从语料库的下一个版本开始。Hugging Face也将相应更新此存储库。

引用信息

@misc{Gokaslan2019OpenWeb,
    title={OpenWebText Corpus},
    author={Aaron Gokaslan*, Vanya Cohen*, Ellie Pavlick, Stefanie Tellex},
    howpublished{\url{http://Skylion007.github.io/OpenWebTextCorpus}},
    year={2019}
}

贡献者

感谢@richarddwang添加了该数据集。