数据集:
code_x_glue_tc_text_to_code
任务:
计算机处理:
other-programming-languages大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original其他:
text-to-code许可:
CodeXGLUE文本到代码数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Text-Code/text-to-code 处获得。
我们使用的数据集是从微软文档中爬取和过滤而来的,其文档位于 https://github.com/MicrosoftDocs/ 处。
“train”示例如下所示。
{
"code": "boolean function ( ) { return isParsed ; }",
"id": 0,
"nl": "check if details are parsed . concode_field_sep Container parent concode_elem_sep boolean isParsed concode_elem_sep long offset concode_elem_sep long contentStartPosition concode_elem_sep ByteBuffer deadBytes concode_elem_sep boolean isRead concode_elem_sep long memMapSize concode_elem_sep Logger LOG concode_elem_sep byte[] userType concode_elem_sep String type concode_elem_sep ByteBuffer content concode_elem_sep FileChannel fileChannel concode_field_sep Container getParent concode_elem_sep byte[] getUserType concode_elem_sep void readContent concode_elem_sep long getOffset concode_elem_sep long getContentSize concode_elem_sep void getContent concode_elem_sep void setDeadBytes concode_elem_sep void parse concode_elem_sep void getHeader concode_elem_sep long getSize concode_elem_sep void parseDetails concode_elem_sep String getType concode_elem_sep void _parseDetails concode_elem_sep String getPath concode_elem_sep boolean verify concode_elem_sep void setParent concode_elem_sep void getBox concode_elem_sep boolean isSmallBox"
}
以下是每个配置文件中的每个数据字段在Go中的说明。数据字段在所有拆分中均相同。
default| field name | type | description |
|---|---|---|
| id | int32 | Index of the sample |
| nl | string | The natural language description of the task |
| code | string | The programming source code for the task |
| name | train | validation | test |
|---|---|---|---|
| default | 100000 | 2000 | 2000 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
https://github.com/microsoft , https://github.com/madlag
数据计算使用协议(C-UDA许可证)。
@article{iyer2018mapping,
title={Mapping language to code in programmatic context},
author={Iyer, Srinivasan and Konstas, Ioannis and Cheung, Alvin and Zettlemoyer, Luke},
journal={arXiv preprint arXiv:1808.09588},
year={2018}
}
感谢@madlag(部分也感谢@ncoop57)添加了这个数据集。