数据集:
laion/OIG
许可:
这是我们尝试创建的一个中等质量的大型指令数据集,以及一个更小的高质量指令数据集(OIG-small-chip2)。
数据以jsonl对象的形式呈现,至少包含一个'text'字段。某些数据集还可能包含一个'metadata'字段。'text'字段包含一个或多个以下形式的字符串:
较大的数据集的目的是进行持续的预训练,然后在较小的高质量数据集上进行微调。
较小的OIG-small-chip2数据集的目的是通过微调或软提示调整,将在大量文本上预训练的语言模型转换为一种指令跟随模型所需的计算量较小的附加模型。
各个社区成员正在准备许多其他数据集,我们将尽力验证数据的质量和格式,并将其纳入该数据集。我们的目标是为每个人提供有用且无害的指令调整模型。
OIG目前为44M。我们将继续发布规模更大的多样化指令数据集,目标是创建10兆标记的多样化指令 - 足够从头预训练一个LLM。
最好直接下载您希望使用的单个jsonl文件,而不是使用HF load_datasets。 https://huggingface.co/datasets/laion/OIG/tree/main
将dbpedia和wikipedia片段与一小部分 https://github.com/google-research/dialog-inpainting 结合
https://github.com/czyssrs/ConvFinQA
https://www.atticusprojectai.org/cuad
该数据集是由LAION OA项目的@rallio67和LAION贡献者团队的其他成员创建的。这是一个高质量的数据集,旨在混合到大型预训练数据集中,并可以用于最后的微调。Chip2包括:
一组指令/回答对,其中用户请求代理生成一个python函数。这些示例是使用大型语言模型和使用已验证执行的python代码进行的少样本提示生成的。还包括来自Conala出版物的约3000个手动策划的一行Python代码示例(参见: https://conala-corpus.github.io/ )
一组平衡的多样化的自然和事实问题和答案,使用少样本提示的UL2 20B和经过指令调整的GPT-NeoX-20B模型(Chip)生成,并通过多个自动评估进行了拒绝抽样,以删除低质量的输出和过滤掉事实不准确的答案。还包括来自Anthropic Helpful instructions的一些经过筛选的自然指令(参见: https://github.com/anthropics/hh-rlhf )。
一组指令/回复对,来源于Anthropic红团队的GitHub(参见: https://github.com/anthropics/hh-rlhf )。该数据集包含许多关于真实人类尝试让Anthropic语言模型说出有害/有毒/恶作剧的内容。对于这个数据集,仅包括在有害等级上评级低的示例(0、1、2,其中4是最有毒的)。同样,仅保留对话的第一行(指令,第一次代理回答)。
一组经过过滤和重新格式化的指令/回复对,其中代理回复包含一个列表。来源于Anthropic GitHub(参见: https://github.com/anthropics/hh-rlhf )。来源于b-mc2创建的wikihow文本列表( https://huggingface.co/datasets/b-mc2/wikihow_lists )。以及由包含列表的Chip20B生成的接受过滤的指令回复对。所有列表都采用类似的格式进行格式化。
包含请求更多信息的适当回应的指令和回答示例。这些示例是由少样本提示的UL2 20B(用于生成自然问题)和大型对话提示语言模型(用于生成包含后续问题的回答)的组合生成的。
从讨论潜在敏感话题的维基百科文章生成的问题和答案(被早期毒性检测模型标记为潜在有毒)。
GSM8K是一个由人类问题编写者创建的包含8.5K个高质量的语言多样化的小学数学题目的数据集。该数据集分为7.5K个训练问题和1K个测试问题。这些问题需要2到8步才能解决,解决方案主要涉及使用基本算术运算(+ - ×÷)执行一系列基本计算以达到最终答案。一个聪明的中学生应该能够解决每个问题。可用于多步数学推理。( https://github.com/openai/grade-school-math )
来自Com2Sense和Strategy QA数据集的示例,经过使用大型语言模型进行少样本提示和其他质量筛选步骤转换为自然指令。
用于生成角色或场景描述的指令和回答示例。场景来自视频游戏维基,并使用大型语言模型进行重新格式化,或者通过使用大型语言模型进行少样本提示生成。
您的贡献和反馈支持开源生态系统,改进机器人并为未来的AI研究提供数据集。要参与其中,您可以:
提交Github问题,跟踪问题并帮助改进需要改进的数据集。 https://github.com/LAION-AI/Open-Instruction-Generalist 加入我们的Discord,与其他参与此项目的团队成员交谈! https://discord.gg/xBPBXfcFHd
这些数据集包含合成数据,有些数据还包括人们试图让语言模型说出有毒/冒犯/恶作剧的内容。如果您对数据集中存在这种类型的材料感到担忧,请确保仔细检查每个条目并进行适当的过滤。我们的目标是使模型尽可能有益和无毒,并且我们正在积极评估减少或消除指令调整数据集中不良内容的方法。
LAION志愿者创建的OIG数据集遵循Apache 2.0许可协议发布。但是,数据还包括根据其他宽松许可证(例如根据CC-BY-SA许可的维基百科数据)许可的内容,或者根据公平使用原则使用的网络爬取的数据。