数据集:

togethercomputer/RedPajama-Data-1T-Sample

语言:

en
英文

数据集名称的数据集卡片

数据集摘要

RedPajama是LLaMa数据集的一个干净的、完全开源的实现。这个HuggingFace仓库包含了RedPajama数据集的10亿个令牌样本。完整数据集的令牌计数如下,可供 download 使用:

Dataset Token Count
Commoncrawl 878 Billion
C4 175 Billion
GitHub 59 Billion
Books 26 Billion
ArXiv 28 Billion
Wikipedia 24 Billion
StackExchange 20 Billion
Total 1.2 Trillion

可以找到完整的从头开始重新创建数据集的脚本集 here

语言

主要是英语,尽管维基百科切片包含多种语言。

数据集结构

数据集结构如下:

{
    "text": ...,
    "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}
}

数据集创建

创建此数据集的目的是尽可能精确地遵循LLaMa论文的步骤,以尝试复现其方法。

数据源

Commoncrawl

我们从Commoncrawl下载了五个转储,并通过官方的cc_net流程将转储运行了一遍。然后我们在段落级别上进行了去重,并使用线性分类器过滤掉低质量的文本,该分类器经过训练,将段落分类为维基百科参考或随机的Commoncrawl样本。

C4

C4是从Huggingface下载的。唯一的预处理步骤是将数据转换为我们自己的格式。

GitHub

原始GitHub数据是从Google BigQuery下载的。我们在文件级别上进行了去重,并过滤掉低质量的文件,只保留在MIT、BSD或Apache许可下分发的项目。

Wikipedia

我们使用了Huggingface上提供的维基百科数据集,该数据集基于2023-03-20的维基百科转储,包含20种不同语言的文本。该数据集经过预处理,已经删除了超链接、注释和其他格式化的样板文件。

Gutenberg和Books3

Gutenberg项目和Books3数据集的PG19子集是从Huggingface下载的。下载后,我们使用Simhash算法删除了近似重复的内容。

ArXiv

ArXiv数据是从Amazon S3的arxiv请求者付费存储桶中下载的。我们只保留LaTeX源文件,并删除了前言、注释、宏和参考文献。

Stackexchange

Stack Exchange数据集的拆分是从 Internet Archive 下载的。在这里,我们只保留来自28个最大站点的帖子,删除HTML标签,将帖子分成问题-答案对,并按得分对答案进行排序。