数据集:
AhmedSSoliman/CoNaLa
该数据集已经经过处理,用于代码生成。CMU CoNaLa(代码/自然语言挑战赛)是卡内基梅隆大学NeuLab和STRUDEL Lab的联合项目。该数据集旨在测试从自然语言生成程序片段的系统。它可在 https://conala-corpus.github.io/ 找到,并从大约600,000个样本的完整语料库中抽取了大约13,000个记录。
英语
该数据集的样本如下所示:
[
{
"intent": "convert a list to a dictionary in python",
"snippet": "b = dict(zip(a[0::2], a[1::2]))"
},
{
"intent": "python - sort a list of nested lists",
"snippet": "l.sort(key=sum_nested)"
}
]
该数据集具有以下字段(也称为“特征”):
{
"intent": "Value(dtype='string', id=None)",
"snippet": "Value(dtype='string', id=None)"
}
该数据集分为训练集、验证集和测试集。拆分的大小如下:
| Split name | Num samples |
|---|---|
| train | 11125 |
| valid | 1237 |
| test | 500 |