数据集:
ruanchaves/lynx
语言:
计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
在编程语言中,标识符是称为符号的标记,用于命名语言实体。标识符可能表示的实体包括变量、类型、标签、子程序和程序包等。
Lynx是一个用于标识符分割的数据集,即在标识符上添加单词之间的空格的任务。
除了标识符分割之外,该数据集的金标签还包括缩写扩展。
{
"index": 3,
"identifier": "abspath",
"segmentation": "abs path",
"expansion": "absolute path",
"spans": {
"text": [
"abs"
],
"expansion": [
"absolute"
],
"start": [
0
],
"end": [
4
]
}
}
此配置文件上的所有hashtag分割和标识符拆分数据集具有相同的基本字段:hashtag和分割或标识符和分割。
hashtag和分割或标识符和分割之间的唯一区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母等操作包含在其他字段中。
字母数字字符和任何特殊字符(如_、:、~)的序列之间始终有空格。
如果有任何命名实体识别和其他标记分类任务的注释,则放在spans字段中。
@inproceedings{madani2010recognizing,
title={Recognizing words from source code identifiers using speech recognition techniques},
author={Madani, Nioosha and Guerrouj, Latifa and Di Penta, Massimiliano and Gueheneuc, Yann-Gael and Antoniol, Giuliano},
booktitle={2010 14th European Conference on Software Maintenance and Reengineering},
pages={68--77},
year={2010},
organization={IEEE}
}
此数据集是在开发 hashformers 库时由 @ruanchaves 添加的。