模型:

microsoft/codebert-base

英文

CodeBERT-base

针对 CodeBERT: A Pre-Trained Model for Programming and Natural Languages 的预训练模型权重。

训练数据

该模型是在 CodeSearchNet 的双模态数据(文档和代码)上进行训练的。

训练目标

该模型使用 MLM+RTD 目标初始化了 Roberta-base,并进行训练(详见论文)。

用法

请参阅 the official repository 中支持 "代码搜索" 和 "代码到文档生成" 的脚本。

参考

  • CodeBERT trained with Masked LM objective (适用于代码补全)
  • ? Hugging Face's CodeBERTa (小尺寸,6 层)
  • 引用

    @misc{feng2020codebert,
        title={CodeBERT: A Pre-Trained Model for Programming and Natural Languages},
        author={Zhangyin Feng and Daya Guo and Duyu Tang and Nan Duan and Xiaocheng Feng and Ming Gong and Linjun Shou and Bing Qin and Ting Liu and Daxin Jiang and Ming Zhou},
        year={2020},
        eprint={2002.08155},
        archivePrefix={arXiv},
        primaryClass={cs.CL}
    }