数据集:
swedish_ner_corpus
任务:
语言:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
来自 Spraakbanken 的 2012 年 Webnyheter,用于 CoreNLP 的瑞典命名实体识别(NER)的半手动注释和调整。在此情况下,半手动定义为:从瑞典名词词表中引导的,然后由两个独立的以瑞典语为母语的注释员进行手动修正/审核。没有计算注释员一致性。
[需要更多信息]
瑞典语
下面提供了一个示例数据集实例:
{'id': '3',
'ner_tags': [4, 4, 0, 0, 0, 0, 0, 0, 3, 3, 0],
'tokens': ['Margaretha',
'Fahlgren',
',',
'professor',
'i',
'litteraturvetenskap',
',',
'vice-rektor',
'Uppsala',
'universitet',
'.']}
完整的字段:
{
"id":{
"feature_type":"Value"
"dtype":"string"
}
"tokens":{
"feature_type":"Sequence"
"feature":{
"feature_type":"Value"
"dtype":"string"
}
}
"ner_tags":{
"feature_type":"Sequence"
"dtype":"int32"
"feature":{
"feature_type":"ClassLabel"
"dtype":"int32"
"class_names":[
0:"0"
1:"LOC"
2:"MISC"
3:"ORG"
4:"PER"
]
}
}
}
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
谁是源语言的制作者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释员?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
原始数据集由 Språkbanken 提供,其中包含来自瑞典报纸网站的新闻。
https://github.com/klintan/swedish-ner-corpus/blob/master/LICENSE
[需要更多信息]
感谢 @abhishekkrthakur 添加此数据集。