数据集:
togethercomputer/RedPajama-Data-Instruct
许可:
RedPajama-Instruct-Data 是从两个不同的 NLP 任务(来自 P3 (BigScience) 和 Natural Instruction (AI2) )的多样化集合中策划而来的,并针对 HELM 进行了积极的去污染处理,主要分为两个步骤:(1)首先,我们使用 HELM 中的每个验证示例作为查询进行语义搜索,并从 Instruct 数据集中获取前100个相似实例,然后检查具有任何返回实例与验证示例重叠(使用 10-Gram)的任务。如果返回的实例与验证示例对应于相同的任务,则将整个任务移除,(在此步骤中,如果返回的实例正好使用与验证示例相同的 Wikipedia 文章,但是提出的问题不同,则保留该任务);(2)然后,删除与 HELM 验证示例有任何 10-Gram 重叠的所有实例。总共过滤掉了 137 个任务和 5.2M 个实例(共计 1069 个任务和 93.3M 个实例)。
P3 的具体版本包括三个主要字段。inputs 字段包含任务说明和数据输入,而 targets 字段表示标签。第三个字段 meta 提供元信息。
data = load_dataset('togethercomputer/RedPajama-Instruct-Data', data_files='data/P3_decontaminated.jsonl.zst', split='train')
对于 NI,definition 字段指的是任务说明,而 inputs 表示输入数据。targets 字段涉及标签,meta 提供相关的元信息。
data = load_dataset('togethercomputer/RedPajama-Instruct-Data', data_files='data/NI_decontaminated.jsonl.zst', split='train')
RedPajama-Instruct-Data 是从以下两个知名数据集中获取的:
主要为英语。
此数据集发布在 Apache 2.0 许可下。