数据集:
deepmind/code_contests
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
found源数据集:
original许可:
CodeContests 是一个用于机器学习的竞争性编程数据集。这个数据集被用于训练 AlphaCode 。
它包含了来自各种来源的编程问题:
Site | URL | Source |
---|---|---|
Aizu | 1233321 | 1234321 |
AtCoder | 1235321 | 1234321 |
CodeChef | 1237321 | 1238321 |
Codeforces | 1239321 | 1238321 and Codeforces |
HackerEarth | 12311321 | 1238321 |
这些问题包括一系列输入和输出的测试用例,以及各种编程语言中的正确和错误的人工解决方案。
英文。
数据点对应一个竞赛问题:
{ 'name': '76_B. Mice', 'description': 'Modern researches has shown that a flock of hungry mice ' 'searching for a piece of...', 'public_tests': {'input': ['3 2 0 2\n0 1 3\n2 5\n'], 'output': ['1\n']}, 'private_tests': {'input': ['20 18 1 2\n' '-9999944 -9999861 -9999850 -9999763 -9999656 ' '-9999517 -9999375 -999927...', ..., '7 11 10 20\n' '6 18 32 63 66 68 87\n' '6 8 15 23 25 41 53 59 60 75 90\n'], 'output': ['2\n', ..., '1\n']}, 'generated_tests': {'input': ['7 11 10 5\n' '6 18 32 63 66 68 87\n' '6 8 15 23 25 41 53 59 60 75 90\n', ..., '7 11 10 4\n' '6 18 46 63 85 84 87\n' '6 8 15 18 25 41 53 59 60 75 90\n'], 'output': ['1\n', ..., '2\n']}, 'source': 2, 'difficulty': 8, 'solutions': {'language': [2, ..., 2], 'solution': ['#include <bits/stdc++.h>\n' 'using namespace std;\n' 'int n, m;\n' 'int data[2][100010], t[1...', ..., '#include <bits/stdc++.h>\n' 'using namespace std;\n' 'int n, m, pos[100100], food[100100...']}, 'incorrect_solutions': {'language': [2, ..., 2], 'solution': ['#include <bits/stdc++.h>\n' 'using namespace std;\n' 'vector<pair<int, int> > v[100010];...', ..., '#include <bits/stdc++.h>\n' 'using namespace std;\n' 'vector<pair<int, int> > v[100010];...']}, 'cf_contest_id': 76, 'cf_index': 'B', 'cf_points': 0.0, 'cf_rating': 2100, 'cf_tags': ['greedy', 'two pointers'], 'is_description_translated': False, 'untranslated_description': '', 'time_limit': {'seconds': 0, 'nanos': 500000000}, 'memory_limit_bytes': 256000000, 'input_file': '', 'output_file': '' }
所有测试都表示为一对输入和输出,可用于测试潜在的解决方案,所有解决方案都包括一种编程语言,可能的取值包括UNKNOWN_LANGUAGE(0)、PYTHON(1)(用PYTHON2编写的解决方案)、CPP(2)、PYTHON3(3)和JAVA(4),以及用该语言编写的解决方案字符串。以 cf_ 开头的字段表示 Codeforces 问题的额外元数据。
数据分为训练集、验证集和测试集。训练集包含13328个样本,验证集包含117个样本,测试集包含165个样本。
这个数据集是为了微调 AlphaCode 模型而创建的:
在 GitHub 上预训练的模型可以生成良好的代码并解决简单的编程问题,但正如附录 B.3 所示,它们几乎无法解决竞争性编程问题。在专门的竞争性编程数据集上对模型进行微调对于性能至关重要。
关于数据收集和规范化过程的信息可以在论文的第3.2节和附录 B.2 中找到。
谁是源语言的生产者?这些问题是从以下平台抓取而来的: Aizu , AtCoder , CodeChef , Codeforces 和 HackerEarch 。此外,还将一些来自现有的公共竞争性编程数据集 Description2Code( Caballero et al., 2016 )和 CodeNet( (Puri et al., 2021 )的数据混合到训练集中。
解决方案与问题描述一起抓取。
谁是注释者?和源数据创建者是同一个人。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Yujia Li、David Choi、Junyoung Chung、Nate Kushman、Julian Schrittwieser、Rémi Leblond、Tom Eccles、James Keeling、Felix Gimeno、Agustin Dal Lago、Thomas Hubert、Peter Choy、Cyprien de Masson d'Autume、Igor Babuschkin、Xinyun Chen、Po-Sen Huang、Johannes Welbl、Sven Gowal、Alexey Cherepanov、James Molloy、Daniel J. Mankowitz、Esme Sutherland Robson、Pushmeet Kohli、Nando de Freitas、Koray Kavukcuoglu 和 Oriol Vinyals。
此数据集可根据 CC BY4.0 许可协议( Creative Commons Attribution 4.0 International license )使用。
其他感谢贡献:
@article{li2022competition, title={Competition-Level Code Generation with AlphaCode}, author={Li, Yujia and Choi, David and Chung, Junyoung and Kushman, Nate and Schrittwieser, Julian and Leblond, R{\'e}mi and Eccles, Tom and Keeling, James and Gimeno, Felix and Dal Lago, Agustin and Hubert, Thomas and Choy, Peter and de Masson d'Autume, Cyprien and Babuschkin, Igor and Chen, Xinyun and Huang, Po-Sen and Welbl, Johannes and Gowal, Sven and Cherepanov, Alexey and Molloy, James and Mankowitz, Daniel and Sutherland Robson, Esme and Kohli, Pushmeet and de Freitas, Nando and Kavukcuoglu, Koray and Vinyals, Oriol}, journal={arXiv preprint arXiv:2203.07814}, year={2022} }
感谢 @mariosasko 添加了该数据集。