数据集:

openai_humaneval

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

n<1K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2107.03374

许可:

mit
英文

OpenAI HumanEval 数据集卡片

数据集概要

OpenAI发布的HumanEval数据集包含164个编程问题,带有函数签名、注释、具体实现和多个单元测试。这些问题是手工编写的,以确保不包含在代码生成模型的训练集中。

支持的任务和排行榜

语言

编程问题使用Python编写,并在注释和注释中包含英文自然文本。

数据集结构

from datasets import load_dataset
load_dataset("openai_humaneval")

DatasetDict({
    test: Dataset({
        features: ['task_id', 'prompt', 'canonical_solution', 'test', 'entry_point'],
        num_rows: 164
    })
})

数据实例

数据集实例示例:

{
    "task_id": "test/0",
    "prompt": "def return1():\n",
    "canonical_solution": "    return 1",
    "test": "def check(candidate):\n    assert candidate() == 1",
    "entry_point": "return1"
}

数据字段

  • task_id:数据样本的标识符
  • prompt:包含函数头和注释的模型输入
  • canonical_solution:问题在prompt中的解决方案
  • test:包含用于测试生成代码正确性的函数
  • entry_point:测试的入口点

数据拆分

数据集只包含一个包含164个样本的测试拆分。

数据集创建

策划理由

由于代码生成模型通常是在GitHub的存储库转储上进行训练的,因此需要一个不包含在该转储中的数据集来正确评估模型。然而,由于该数据集已经发布在GitHub上,很可能会包含在未来的转储中。

源数据

该数据集由OpenAI的工程师和研究人员手工创建。

初始数据收集和归一化

[需要更多信息]

谁是源语言生产者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

无。

使用数据的注意事项

在针对这个数据集进行评估时,请确保在安全环境中执行生成的Python代码,因为生成的代码可能会有害。

数据集的社会影响

使用这个数据集,可以更好地评估代码生成模型,从而减少在使用此类模型时引入的问题。

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

OpenAI

许可信息

MIT许可证

引用信息

@misc{chen2021evaluating,
      title={Evaluating Large Language Models Trained on Code},
      author={Mark Chen and Jerry Tworek and Heewoo Jun and Qiming Yuan and Henrique Ponde de Oliveira Pinto and Jared Kaplan and Harri Edwards and Yuri Burda and Nicholas Joseph and Greg Brockman and Alex Ray and Raul Puri and Gretchen Krueger and Michael Petrov and Heidy Khlaaf and Girish Sastry and Pamela Mishkin and Brooke Chan and Scott Gray and Nick Ryder and Mikhail Pavlov and Alethea Power and Lukasz Kaiser and Mohammad Bavarian and Clemens Winter and Philippe Tillet and Felipe Petroski Such and Dave Cummings and Matthias Plappert and Fotios Chantzis and Elizabeth Barnes and Ariel Herbert-Voss and William Hebgen Guss and Alex Nichol and Alex Paino and Nikolas Tezak and Jie Tang and Igor Babuschkin and Suchir Balaji and Shantanu Jain and William Saunders and Christopher Hesse and Andrew N. Carr and Jan Leike and Josh Achiam and Vedant Misra and Evan Morikawa and Alec Radford and Matthew Knight and Miles Brundage and Mira Murati and Katie Mayer and Peter Welinder and Bob McGrew and Dario Amodei and Sam McCandlish and Ilya Sutskever and Wojciech Zaremba},
      year={2021},
      eprint={2107.03374},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

贡献

感谢 @lvwerra 添加了这个数据集。