数据集由2084个jsonl文件组成。您可以使用HuggingFace下载数据集:
from datasets import load_dataset
ds = load_dataset("togethercomputer/RedPajama-Data-1T")
您也可以直接使用以下命令下载文件:
wget 'https://data.together.xyz/redpajama-data-1T/v1.0.0/urls.txt'
while read line; do
dload_loc=${line#https://data.together.xyz/redpajama-data-1T/v1.0.0/}
mkdir -p $(dirname $dload_loc)
wget "$line" -O "$dload_loc"
done < urls.txt
下载文件后,您可以通过将RED_PAJAMA_DATA_DIR环境变量设置为包含文件的目录来从磁盘加载数据集:
import os
from datasets import load_dataset
os.environ["RED_PAJAMA_DATA_DIR"] = "/path/to/download"
ds = load_dataset("togethercomputer/RedPajama-Data-1T")
可以在以下位置找到数据集的较小的1B令牌示例: here
完整的脚本集以从头开始重新创建数据集可以在此处找到: here
RedPajama是LLaMa数据集的一个清洁室、完全开源的实现。
| Dataset | Token Count |
|---|---|
| Commoncrawl | 878 Billion |
| C4 | 175 Billion |
| GitHub | 59 Billion |
| Books | 26 Billion |
| ArXiv | 28 Billion |
| Wikipedia | 24 Billion |
| StackExchange | 20 Billion |
| Total | 1.2 Trillion |
主要以英语为主,但维基百科切片包含多种语言。
数据集的结构如下:
{
"text": ...,
"meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...},
"red_pajama_subset": "common_crawl" | "c4" | "github" | "books" | "arxiv" | "wikipedia" | "stackexchange"
}
此数据集的创建尽可能地按照LLaMa论文的步骤进行,以尝试复制其方法。
我们从Commoncrawl下载五个转储,并通过官方cc_net流程运行转储。然后我们按段落级别去重,并使用线性分类器过滤低质量的文本,该分类器训练用于将段落分类为维基百科参考或随机Commoncrawl样本。
C4C4从Huggingface下载。唯一的预处理步骤是将数据转换为我们自己的格式。
GitHub原始的GitHub数据是从Google BigQuery下载的。我们按文件级别去重,并过滤掉低质量的文件,只保留在MIT、BSD或Apache许可下分发的项目。
维基百科我们使用在Huggingface上可用的维基百科数据集,该数据集基于2023-03-20年的维基百科转储,并包含20种不同语言的文本。数据集采用预处理格式,已删除超链接、注释和其他格式化样板。
古腾堡和Books3从Huggingface下载Gutenberg项目和Books3数据集的PG19子集。下载完成后,我们使用simhash算法删除近似重复。
ArXivArXiv数据从Amazon S3中的arxiv请求支付桶中下载。我们仅保留latex源文件,并删除导言、注释、宏和引用。
Stackexchange数据集的Stack Exchange部分从 Internet Archive 下载。在这里,我们仅保留28个最大网站的帖子,删除HTML标签,将帖子组成问题-答案对,并按其分数对答案排序。
每个数据源的数据集文件的SHA256校验和可以在此处找到:
https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/arxiv_SHA256SUMS.txt https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/book_SHA256SUMS.txt https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/c4_SHA256SUMS.txt https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/common_crawl_SHA256SUMS.txt https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/github_SHA256SUMS.txt https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/stackexchange_SHA256SUMS.txt https://data.together.xyz/redpajama-data-1T/v1.0.0/sha256/wikipedia_SHA256SUMS.txt
请使用以下方式引用RedPajama:
@software{together2023redpajama,
author = {Together Computer},
title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset},
month = April,
year = 2023,
url = {https://github.com/togethercomputer/RedPajama-Data}
}
请参阅您使用的数据子集的许可证。