数据集概述

RedPajama-Instruct-Data 是从两个不同的 NLP 任务（来自 P3 (BigScience) 和 Natural Instruction (AI2) ）的多样化集合中策划而来的，并针对 HELM 进行了积极的去污染处理，主要分为两个步骤：（1）首先，我们使用 HELM 中的每个验证示例作为查询进行语义搜索，并从 Instruct 数据集中获取前100个相似实例，然后检查具有任何返回实例与验证示例重叠（使用 10-Gram）的任务。如果返回的实例与验证示例对应于相同的任务，则将整个任务移除，（在此步骤中，如果返回的实例正好使用与验证示例相同的 Wikipedia 文章，但是提出的问题不同，则保留该任务）；（2）然后，删除与 HELM 验证示例有任何 10-Gram 重叠的所有实例。总共过滤掉了 137 个任务和 5.2M 个实例（共计 1069 个任务和 93.3M 个实例）。

快速入门

P3 的具体版本包括三个主要字段。inputs 字段包含任务说明和数据输入，而 targets 字段表示标签。第三个字段 meta 提供元信息。

data = load_dataset('togethercomputer/RedPajama-Instruct-Data', data_files='data/P3_decontaminated.jsonl.zst', split='train')

对于 NI，definition 字段指的是任务说明，而 inputs 表示输入数据。targets 字段涉及标签，meta 提供相关的元信息。

data = load_dataset('togethercomputer/RedPajama-Instruct-Data', data_files='data/NI_decontaminated.jsonl.zst', split='train')

源数据

RedPajama-Instruct-Data 是从以下两个知名数据集中获取的：

Public Pool of Prompts : 一个大型数据集，包含从众包努力中获得的各种创意任务。
Natural-Instructions : 一个包含多种自然语言任务的指导调校数据集。

语言

主要为英语。

许可信息

此数据集发布在 Apache 2.0 许可下。

作者:

togethercomputer

数据集大小:

11.27 GB