一组平衡的多样化的自然和事实问题和答案，使用少样本提示的UL2 20B和经过指令调整的GPT-NeoX-20B模型（Chip）生成，并通过多个自动评估进行了拒绝抽样，以删除低质量的输出和过滤掉事实不准确的答案。还包括来自Anthropic Helpful instructions的一些经过筛选的自然指令（参见： https://github.com/anthropics/hh-rlhf ）。

无害通用指令示例（~6,500）：

一组指令/回复对，来源于Anthropic红团队的GitHub（参见： https://github.com/anthropics/hh-rlhf ）。该数据集包含许多关于真实人类尝试让Anthropic语言模型说出有害/有毒/恶作剧的内容。对于这个数据集，仅包括在有害等级上评级低的示例（0、1、2，其中4是最有毒的）。同样，仅保留对话的第一行（指令，第一次代理回答）。

包含列表的指令/回复（~14,000）：

一组经过过滤和重新格式化的指令/回复对，其中代理回复包含一个列表。来源于Anthropic GitHub（参见： https://github.com/anthropics/hh-rlhf ）。来源于b-mc2创建的wikihow文本列表（ https://huggingface.co/datasets/b-mc2/wikihow_lists ）。以及由包含列表的Chip20B生成的接受过滤的指令回复对。所有列表都采用类似的格式进行格式化。

后续问题（~12,500）：

包含请求更多信息的适当回应的指令和回答示例。这些示例是由少样本提示的UL2 20B（用于生成自然问题）和大型对话提示语言模型（用于生成包含后续问题的回答）的组合生成的。

维基百科有毒对抗性问题（~12,000）：

从讨论潜在敏感话题的维基百科文章生成的问题和答案（被早期毒性检测模型标记为潜在有毒）。

小学数学GSM8K（~9,000）：

GSM8K是一个由人类问题编写者创建的包含8.5K个高质量的语言多样化的小学数学题目的数据集。该数据集分为7.5K个训练问题和1K个测试问题。这些问题需要2到8步才能解决，解决方案主要涉及使用基本算术运算（+ - ×÷）执行一系列基本计算以达到最终答案。一个聪明的中学生应该能够解决每个问题。可用于多步数学推理。（ https://github.com/openai/grade-school-math ）

推理指导（~4,500）：

来自Com2Sense和Strategy QA数据集的示例，经过使用大型语言模型进行少样本提示和其他质量筛选步骤转换为自然指令。

角色和场景描述（~30,000）：

用于生成角色或场景描述的指令和回答示例。场景来自视频游戏维基，并使用大型语言模型进行重新格式化，或者通过使用大型语言模型进行少样本提示生成。

支持该项目

您的贡献和反馈支持开源生态系统，改进机器人并为未来的AI研究提供数据集。要参与其中，您可以：

提交Github问题，跟踪问题并帮助改进需要改进的数据集。 https://github.com/LAION-AI/Open-Instruction-Generalist 加入我们的Discord，与其他参与此项目的团队成员交谈！ https://discord.gg/xBPBXfcFHd

更新：2023年3月20日

在所有数据集中添加了metadata列，以减轻HF数据集加载器的问题。
将一些p3对话拆分成部分以便加载。

免责声明

这些数据集包含合成数据，有些数据还包括人们试图让语言模型说出有毒/冒犯/恶作剧的内容。如果您对数据集中存在这种类型的材料感到担忧，请确保仔细检查每个条目并进行适当的过滤。我们的目标是使模型尽可能有益和无毒，并且我们正在积极评估减少或消除指令调整数据集中不良内容的方法。

许可协议

LAION志愿者创建的OIG数据集遵循Apache 2.0许可协议发布。但是，数据还包括根据其他宽松许可证（例如根据CC-BY-SA许可的维基百科数据）许可的内容，或者根据公平使用原则使用的网络爬取的数据。

致谢

我们要感谢我们所有来自LAION的志愿者，包括：@Rallio、@Jue、@Ce Zhang、@Player-1、@Laurel、@danielpatrickhug、@Jjmachan、@Mylo、@Khalid、@Coco.han、@Jordiclive、@Pszemraj，最初创建了合成数据的Open Assistant项目的所有志愿者，以及许多其他人。
我们要感谢Together对开源和AI社区的不懈贡献，并对许多数据集的贡献表示感谢。
我们要感谢AI Horde和用户@Db0对被标记为不道德的过滤数据的令人难以置信的贡献。
请查看我们的相关项目： https://github.com/LAION-AI/Open-Assistant ，了解我们在人类反馈收集和RLHF方面的工作。
最后，Ontocord.ai的创始人对有机会为该项目创建数据增强和安全调节代码表示感激。

作者:

laion

数据集大小:

58.12 GB