数据集名称的数据集卡片

RedPajama是LLaMa数据集的一个干净的、完全开源的实现。这个HuggingFace仓库包含了RedPajama数据集的10亿个令牌样本。完整数据集的令牌计数如下，可供 download 使用：

可以找到完整的从头开始重新创建数据集的脚本集 here 。

主要是英语，尽管维基百科切片包含多种语言。

数据集结构

数据集结构如下：

{
    "text": ...,
    "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}
}

创建此数据集的目的是尽可能精确地遵循LLaMa论文的步骤，以尝试复现其方法。

Commoncrawl

我们从Commoncrawl下载了五个转储，并通过官方的cc_net流程将转储运行了一遍。然后我们在段落级别上进行了去重，并使用线性分类器过滤掉低质量的文本，该分类器经过训练，将段落分类为维基百科参考或随机的Commoncrawl样本。

C4是从Huggingface下载的。唯一的预处理步骤是将数据转换为我们自己的格式。

GitHub

原始GitHub数据是从Google BigQuery下载的。我们在文件级别上进行了去重，并过滤掉低质量的文件，只保留在MIT、BSD或Apache许可下分发的项目。

Wikipedia

我们使用了Huggingface上提供的维基百科数据集，该数据集基于2023-03-20的维基百科转储，包含20种不同语言的文本。该数据集经过预处理，已经删除了超链接、注释和其他格式化的样板文件。

Gutenberg和Books3

Gutenberg项目和Books3数据集的PG19子集是从Huggingface下载的。下载后，我们使用Simhash算法删除了近似重复的内容。

ArXiv

ArXiv数据是从Amazon S3的arxiv请求者付费存储桶中下载的。我们只保留LaTeX源文件，并删除了前言、注释、宏和参考文献。

Stackexchange

Stack Exchange数据集的拆分是从 Internet Archive 下载的。在这里，我们只保留来自28个最大站点的帖子，删除HTML标签，将帖子分成问题-答案对，并按得分对答案进行排序。

作者:

togethercomputer

数据集大小:

5.04 GB