数据集:

togethercomputer/RedPajama-Data-1T

语言:

en
英文

入门

数据集由2084个jsonl文件组成。您可以使用HuggingFace下载数据集:

from datasets import load_dataset
ds = load_dataset("togethercomputer/RedPajama-Data-1T")

您也可以直接使用以下命令下载文件:

wget 'https://data.together.xyz/redpajama-data-1T/v1.0.0/urls.txt'
while read line; do
    dload_loc=${line#https://data.together.xyz/redpajama-data-1T/v1.0.0/}
    mkdir -p $(dirname $dload_loc)
    wget "$line" -O "$dload_loc"
done < urls.txt

下载文件后,您可以通过将RED_PAJAMA_DATA_DIR环境变量设置为包含文件的目录来从磁盘加载数据集:

import os
from datasets import load_dataset
os.environ["RED_PAJAMA_DATA_DIR"] = "/path/to/download"
ds = load_dataset("togethercomputer/RedPajama-Data-1T")

可以在以下位置找到数据集的较小的1B令牌示例: here

完整的脚本集以从头开始重新创建数据集可以在此处找到: here

数据集概述

RedPajama是LLaMa数据集的一个清洁室、完全开源的实现。

Dataset Token Count
Commoncrawl 878 Billion
C4 175 Billion
GitHub 59 Billion
Books 26 Billion
ArXiv 28 Billion
Wikipedia 24 Billion
StackExchange 20 Billion
Total 1.2 Trillion

语言

主要以英语为主,但维基百科切片包含多种语言。

数据集结构

数据集的结构如下:

{
    "text": ...,
    "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...},
    "red_pajama_subset": "common_crawl" | "c4" | "github" | "books" | "arxiv" | "wikipedia" | "stackexchange"
}

数据集创建

此数据集的创建尽可能地按照LLaMa论文的步骤进行,以尝试复制其方法。

源数据

Commoncrawl

我们从Commoncrawl下载五个转储,并通过官方cc_net流程运行转储。然后我们按段落级别去重,并使用线性分类器过滤低质量的文本,该分类器训练用于将段落分类为维基百科参考或随机Commoncrawl样本。

C4

C4从Huggingface下载。唯一的预处理步骤是将数据转换为我们自己的格式。

GitHub

原始的GitHub数据是从Google BigQuery下载的。我们按文件级别去重,并过滤掉低质量的文件,只保留在MIT、BSD或Apache许可下分发的项目。

维基百科

我们使用在Huggingface上可用的维基百科数据集,该数据集基于2023-03-20年的维基百科转储,并包含20种不同语言的文本。数据集采用预处理格式,已删除超链接、注释和其他格式化样板。

古腾堡和Books3

从Huggingface下载Gutenberg项目和Books3数据集的PG19子集。下载完成后,我们使用simhash算法删除近似重复。

ArXiv

ArXiv数据从Amazon S3中的arxiv请求支付桶中下载。我们仅保留latex源文件,并删除导言、注释、宏和引用。

Stackexchange

数据集的Stack Exchange部分从 Internet Archive 下载。在这里,我们仅保留28个最大网站的帖子,删除HTML标签,将帖子组成问题-答案对,并按其分数对答案排序。

SHA256校验和

每个数据源的数据集文件的SHA256校验和可以在此处找到:

https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/arxiv_SHA256SUMS.txt
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/book_SHA256SUMS.txt
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/c4_SHA256SUMS.txt
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/common_crawl_SHA256SUMS.txt
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/github_SHA256SUMS.txt
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/stackexchange_SHA256SUMS.txt
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/wikipedia_SHA256SUMS.txt

请使用以下方式引用RedPajama:

@software{together2023redpajama,
  author = {Together Computer},
  title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset},
  month = April,
  year = 2023,
  url = {https://github.com/togethercomputer/RedPajama-Data}
}

许可证

请参阅您使用的数据子集的许可证。