数据集:
ruanchaves/boun
语言:
计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
expert-generated源数据集:
original许可:
Dev-BOUN是一个开发集,其中包含500个手动分割的标签。这些标签是从关于电影、电视节目、知名人物、体育队等的推文中选择的。
Test-BOUN是一个测试集,其中包含500个手动分割的标签。这些标签是从关于电影、电视节目、知名人物、体育队等的推文中选择的。
英语
{
"index": 0,
"hashtag": "tryingtosleep",
"segmentation": "trying to sleep"
}
此配置文件中的所有标签分割和标识符拆分数据集都具有相同的基本字段:标签和分割或标识符和分割。
标签和分割或标识符和分割之间唯一的区别是空格字符。拼写检查、扩展缩写或将字符更正为大写字母都属于其他字段。
字母数字字符与任何特殊字符序列(比如_、:、~)之间始终有空格。
如果有任何用于命名实体识别和其他标记分类任务的注释,则给出在spans字段中给出。
@article{celebi2018segmenting,
title={Segmenting hashtags and analyzing their grammatical structure},
author={Celebi, Arda and {\"O}zg{\"u}r, Arzucan},
journal={Journal of the Association for Information Science and Technology},
volume={69},
number={5},
pages={675--686},
year={2018},
publisher={Wiley Online Library}
}
在开发 hashformers 库时, @ruanchaves 添加了这个数据集。