RedPajama是LLaMa数据集的一个干净的、完全开源的实现。这个HuggingFace仓库包含了RedPajama数据集的10亿个令牌样本。完整数据集的令牌计数如下,可供 download 使用:
| Dataset | Token Count |
|---|---|
| Commoncrawl | 878 Billion |
| C4 | 175 Billion |
| GitHub | 59 Billion |
| Books | 26 Billion |
| ArXiv | 28 Billion |
| Wikipedia | 24 Billion |
| StackExchange | 20 Billion |
| Total | 1.2 Trillion |
可以找到完整的从头开始重新创建数据集的脚本集 here 。
主要是英语,尽管维基百科切片包含多种语言。
数据集结构如下:
{
"text": ...,
"meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}
}
创建此数据集的目的是尽可能精确地遵循LLaMa论文的步骤,以尝试复现其方法。
我们从Commoncrawl下载了五个转储,并通过官方的cc_net流程将转储运行了一遍。然后我们在段落级别上进行了去重,并使用线性分类器过滤掉低质量的文本,该分类器经过训练,将段落分类为维基百科参考或随机的Commoncrawl样本。
C4C4是从Huggingface下载的。唯一的预处理步骤是将数据转换为我们自己的格式。
GitHub原始GitHub数据是从Google BigQuery下载的。我们在文件级别上进行了去重,并过滤掉低质量的文件,只保留在MIT、BSD或Apache许可下分发的项目。
Wikipedia我们使用了Huggingface上提供的维基百科数据集,该数据集基于2023-03-20的维基百科转储,包含20种不同语言的文本。该数据集经过预处理,已经删除了超链接、注释和其他格式化的样板文件。
Gutenberg和Books3Gutenberg项目和Books3数据集的PG19子集是从Huggingface下载的。下载后,我们使用Simhash算法删除了近似重复的内容。
ArXivArXiv数据是从Amazon S3的arxiv请求者付费存储桶中下载的。我们只保留LaTeX源文件,并删除了前言、注释、宏和参考文献。
StackexchangeStack Exchange数据集的拆分是从 Internet Archive 下载的。在这里,我们只保留来自28个最大站点的帖子,删除HTML标签,将帖子分成问题-答案对,并按得分对答案进行排序。