数据集:
chcaa/DANSK
语言:
DANSK(Danish Annotations for NLP Specific TasKs)数据集是一个包含来自多个领域的文本的数据集,从丹麦GigaWord语料库(DAGW)中采样而来。该数据集的创建是为了填补丹麦NLP数据集在不同领域上的空白,以便训练能够跨领域泛化的模型。命名实体的注释是细粒度的,并且与OntoNotes v5的形式相似,这极大地扩展了数据集的用途。 领域包括Web、新闻、维基百科、图书、法律、Dannet、会话和社交媒体。有关领域的更详细了解,请参阅 DAGW 。
在下表中可以看到每个领域内的文本和命名实体的分布情况:
DANSK数据集目前仅支持命名实体识别,但将在以后的版本发布中包含更多任务的数据。
数据集中的所有文本均为丹麦语。可能会出现来自各种平台或方言的俚语,与原始采样文本的领域相关 - 例如社交媒体。
JSON格式的数据的形式如下所示:
{
    "text": "Aborrer over 2 kg er en uhyre sj\u00e6lden fangst.",
    "ents": [{"start": 13, "end": 17, "label": "QUANTITY"}],
    "sents": [{"start": 0, "end": 45}],
    "tokens": [
        {"id": 0, "start": 0, "end": 7},
        {"id": 1, "start": 8, "end": 12},
        {"id": 2, "start": 13, "end": 14},
        {"id": 3, "start": 15, "end": 17},
        {"id": 4, "start": 18, "end": 20},
        {"id": 5, "start": 21, "end": 23},
        {"id": 6, "start": 24, "end": 29},
        {"id": 7, "start": 30, "end": 37},
        {"id": 8, "start": 38, "end": 44},
        {"id": 9, "start": 44, "end": 45},
    ],
    "spans": {"incorrect_spans": []},
    "dagw_source": "wiki",
    "dagw_domain": "Wiki & Books",
    "dagw_source_full": "Wikipedia",
}
 数据随机分为三个不同的部分:训练集、开发集和测试集。这些分割来自同一数据集,因此集合之间没有基本差异。有关不同分区的命名实体和领域的分布情况,请参考论文,或阅读此标记中提供的表面统计数据。
各个分区的命名实体注释组成如下表所示:
| Full | Train | Validation | Test | |
|---|---|---|---|---|
| Texts | 15062 | 12062 (80%) | 1500 (10%) | 1500 (10%) | 
| Named entities | 14462 | 11638 (80.47%) | 1327 (9.18%) | 1497 (10.25%) | 
| CARDINAL | 2069 | 1702 (82.26%) | 168 (8.12%) | 226 (10.92%) | 
| DATE | 1756 | 1411 (80.35%) | 182 (10.36%) | 163 (9.28%) | 
| EVENT | 211 | 175 (82.94%) | 19 (9.00%) | 17 (8.06%) | 
| FACILITY | 246 | 200 (81.30%) | 25 (10.16%) | 21 (8.54%) | 
| GPE | 1604 | 1276 (79.55%) | 135 (8.42%) | 193 (12.03%) | 
| LANGUAGE | 126 | 53 (42.06%) | 17 (13.49%) | 56 (44.44%) | 
| LAW | 183 | 148 (80.87%) | 17 (9.29%) | 18 (9.84%) | 
| LOCATION | 424 | 351 (82.78%) | 46 (10.85%) | 27 (6.37%) | 
| MONEY | 714 | 566 (79.27%) | 72 (10.08%) | 76 (10.64%) | 
| NORP | 495 | 405 (81.82%) | 41 (8.28%) | 49 (9.90%) | 
| ORDINAL | 127 | 105 (82.68%) | 11 (8.66%) | 11 (8.66%) | 
| ORGANIZATION | 2507 | 1960 (78.18%) | 249 (9.93%) | 298 (11.87%) | 
| PERCENT | 148 | 123 (83.11%) | 13 (8.78%) | 12 (8.11%) | 
| PERSON | 2133 | 1767 (82.84%) | 191 (8.95%) | 175 (8.20%) | 
| PRODUCT | 763 | 634 (83.09%) | 57 (7.47%) | 72 (9.44%) | 
| QUANTITY | 292 | 242 (82.88%) | 28 (9.59%) | 22 (7.53%) | 
| TIME | 218 | 185 (84.86%) | 18 (8.26%) | 15 (6.88%) | 
| WORK OF ART | 419 | 335 (79.95%) | 38 (9.07%) | 46 (10.98%) | 
各个分区的领域和来源分布情况如下表所示:
| Domain | Source | Full | Train | Dev | Test | 
|---|---|---|---|---|---|
| Conversation | Europa Parlamentet | 206 | 173 | 17 | 16 | 
| Conversation | Folketinget | 23 | 21 | 1 | 1 | 
| Conversation | NAAT | 554 | 431 | 50 | 73 | 
| Conversation | OpenSubtitles | 377 | 300 | 39 | 38 | 
| Conversation | Spontaneous speech | 489 | 395 | 54 | 40 | 
| Dannet | Dannet | 25 | 18 | 4 | 3 | 
| Legal | Retsinformation.dk | 965 | 747 | 105 | 113 | 
| Legal | Skat.dk | 471 | 364 | 53 | 54 | 
| Legal | Retspraktis | 727 | 579 | 76 | 72 | 
| News | DanAvis | 283 | 236 | 20 | 27 | 
| News | TV2R | 138 | 110 | 16 | 12 | 
| Social Media | hestenettet.dk | 554 | 439 | 51 | 64 | 
| Web | Common Crawl | 8270 | 6661 | 826 | 783 | 
| Wiki & Books | adl | 640 | 517 | 57 | 66 | 
| Wiki & Books | Wikipedia | 279 | 208 | 30 | 41 | 
| Wiki & Books | WikiBooks | 335 | 265 | 36 | 34 | 
| Wiki & Books | WikiSource | 455 | 371 | 43 | 41 | 
训练集的领域和命名实体分布情况如下所示:
| All domains combined | Conversation | Dannet | Legal | News | Social Media | Web | Wiki and Books | |
|---|---|---|---|---|---|---|---|---|
| DOCS | 12062 | 1320 | 18 | 1690 | 346 | 439 | 6661 | 1361 | 
| ENTS | 11638 | 1060 | 15 | 1292 | 419 | 270 | 7502 | 883 | 
| CARDINAL | 1702 | 346 | 6 | 95 | 35 | 17 | 1144 | 59 | 
| DATE | 1411 | 113 | 5 | 257 | 40 | 29 | 831 | 126 | 
| EVENT | 175 | 43 | 0 | 1 | 9 | 3 | 106 | 8 | 
| FACILITY | 200 | 2 | 0 | 4 | 18 | 3 | 159 | 10 | 
| GPE | 1276 | 130 | 2 | 60 | 68 | 31 | 846 | 128 | 
| LANGUAGE | 53 | 3 | 0 | 0 | 0 | 0 | 34 | 16 | 
| LAW | 148 | 10 | 0 | 100 | 1 | 0 | 22 | 13 | 
| LOCATION | 351 | 18 | 0 | 1 | 7 | 7 | 288 | 29 | 
| MONEY | 566 | 1 | 0 | 62 | 13 | 18 | 472 | 0 | 
| NORP | 405 | 70 | 0 | 61 | 22 | 1 | 188 | 42 | 
| ORDINAL | 105 | 11 | 0 | 17 | 9 | 2 | 43 | 22 | 
| ORGANIZATION | 1960 | 87 | 0 | 400 | 61 | 39 | 1303 | 58 | 
| PERCENT | 123 | 5 | 0 | 10 | 11 | 0 | 91 | 4 | 
| PERSON | 1767 | 189 | 2 | 194 | 101 | 69 | 970 | 121 | 
| PRODUCT | 634 | 3 | 0 | 10 | 2 | 33 | 581 | 3 | 
| QUANTITY | 242 | 1 | 0 | 9 | 6 | 17 | 188 | 20 | 
| TIME | 185 | 16 | 0 | 5 | 13 | 1 | 144 | 6 | 
| WORK OF ART | 335 | 12 | 0 | 6 | 3 | 0 | 92 | 218 | 
验证集的领域和命名实体分布情况如下所示:
| Sum | Conversation | Dannet | Legal | News | Social Media | Web | Wiki | |
|---|---|---|---|---|---|---|---|---|
| DOCS | 1500 | 161 | 4 | 234 | 36 | 51 | 826 | 166 | 
| ENTS | 1497 | 110 | 4 | 171 | 43 | 30 | 983 | 143 | 
| CARDINAL | 226 | 41 | 2 | 19 | 7 | 5 | 139 | 13 | 
| DATE | 163 | 11 | 0 | 27 | 6 | 4 | 89 | 26 | 
| EVENT | 17 | 2 | 0 | 0 | 1 | 0 | 13 | 1 | 
| FACILITY | 21 | 1 | 0 | 0 | 0 | 0 | 16 | 4 | 
| GPE | 193 | 17 | 1 | 8 | 7 | 2 | 131 | 25 | 
| LANGUAGE | 56 | 0 | 0 | 0 | 0 | 0 | 50 | 6 | 
| LAW | 18 | 2 | 0 | 8 | 0 | 0 | 8 | 0 | 
| LOCATION | 27 | 2 | 0 | 1 | 0 | 0 | 21 | 3 | 
| MONEY | 76 | 2 | 0 | 9 | 1 | 6 | 58 | 0 | 
| NORP | 49 | 8 | 0 | 8 | 1 | 2 | 21 | 9 | 
| ORDINAL | 11 | 2 | 0 | 2 | 0 | 1 | 3 | 3 | 
| ORGANIZATION | 298 | 6 | 0 | 68 | 5 | 3 | 212 | 4 | 
| PERCENT | 12 | 0 | 0 | 2 | 0 | 0 | 10 | 0 | 
| PERSON | 175 | 16 | 1 | 16 | 11 | 4 | 96 | 20 | 
| PRODUCT | 72 | 0 | 0 | 0 | 0 | 2 | 69 | 1 | 
| QUANTITY | 22 | 0 | 0 | 1 | 2 | 1 | 17 | 1 | 
| TIME | 15 | 0 | 0 | 0 | 2 | 0 | 13 | 0 | 
| WORK OF ART | 46 | 0 | 0 | 2 | 0 | 0 | 17 | 27 | 
测试集的领域和命名实体分布情况如下所示:
| Sum | Conversation | Dannet | Legal | News | Social Media | Web | Wiki | |
|---|---|---|---|---|---|---|---|---|
| DOCS | 1500 | 161 | 4 | 234 | 36 | 51 | 826 | 166 | 
| ENTS | 1497 | 110 | 4 | 171 | 43 | 30 | 983 | 143 | 
| CARDINAL | 226 | 41 | 2 | 19 | 7 | 5 | 139 | 13 | 
| DATE | 163 | 11 | 0 | 27 | 6 | 4 | 89 | 26 | 
| EVENT | 17 | 2 | 0 | 0 | 1 | 0 | 13 | 1 | 
| FACILITY | 21 | 1 | 0 | 0 | 0 | 0 | 16 | 4 | 
| GPE | 193 | 17 | 1 | 8 | 7 | 2 | 131 | 25 | 
| LANGUAGE | 56 | 0 | 0 | 0 | 0 | 0 | 50 | 6 | 
| LAW | 18 | 2 | 0 | 8 | 0 | 0 | 8 | 0 | 
| LOCATION | 27 | 2 | 0 | 1 | 0 | 0 | 21 | 3 | 
| MONEY | 76 | 2 | 0 | 9 | 1 | 6 | 58 | 0 | 
| NORP | 49 | 8 | 0 | 8 | 1 | 2 | 21 | 9 | 
| ORDINAL | 11 | 2 | 0 | 2 | 0 | 1 | 3 | 3 | 
| ORGANIZATION | 298 | 6 | 0 | 68 | 5 | 3 | 212 | 4 | 
| PERCENT | 12 | 0 | 0 | 2 | 0 | 0 | 10 | 0 | 
| PERSON | 175 | 16 | 1 | 16 | 11 | 4 | 96 | 20 | 
| PRODUCT | 72 | 0 | 0 | 0 | 0 | 2 | 69 | 1 | 
| QUANTITY | 22 | 0 | 0 | 1 | 2 | 1 | 17 | 1 | 
| TIME | 15 | 0 | 0 | 0 | 2 | 0 | 13 | 0 | 
| WORK OF ART | 46 | 0 | 0 | 2 | 0 | 0 | 17 | 27 | 
该数据集旨在填补丹麦NLP领域的空白,目前尚缺乏具有以下两个特点的数据集:1)细粒度的命名实体识别标签;2)文本领域来源的高变异性。因此,DANSK数据集可用于训练任何希望创建能够在领域间泛化且预测精细的NER模型的人员。它还可以用于评估跨领域评估,以揭示任何潜在的领域偏差。尽管目前该数据集仅包含命名实体的注释,但未来版本的数据集将包含依赖解析、词性标注和可能的修订的NER注释。
数据的收集、注释和规范化步骤是非常广泛的。由于此自述文件的描述过长,请在相关论文发表后参考该论文以获取完整说明。
初始数据收集和规范化为了实现高细粒度度,DANSK数据集采用了OntoNotes 5.0的注释标准。该标准包括18种不同的命名实体类型。完整描述可见相关论文。
注释者是谁?从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时,从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。命名实体注释和依赖解析是从头开始完成的,而词性标注则包括对NLP模型的银标准预测的更正。
从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时,从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。注释者的补偿按照丹麦财政部和教师中央组织以及2010年CO10中央组织(CO10联合协议)的集体协议确定的学生标准费率计算,为每小时140丹麦克朗。命名实体注释和依赖解析是从头开始完成的,而词性标注则涉及对NLP模型预测的更正。
在注释的手动更正过程中,发现了一些一致性错误。采用以下正则表达式模式对其进行了更正(也请参考OntoNotes注释指南的丹麦补充):
正则表达式模式用于匹配时间范围,例如[16:30 - 17:30](TIME):
\d{1,2}:\d\d ?[-|\||\/] ?\d
dag: \d{1,2}
 用于匹配日期范围,例如[1938 - 1992](DATE):
\d{2,4} ?[-|–] ?\d{2,4}
 用于匹配包含A/S og ApS的公司:
e.g. [Hansens Skomager A/S] (ORGANIZATION): ApS A\/S
用于匹配书面数字,例如"en":
to | to$|^to| To | To$|^To| TO | TO$|^TO| tre | tre$|^tre| Tre | Tre$|^Tre| TRE | TRE$|^TRE| fire | fire$|^fire| Fire | Fire$|^Fire| FIRE | FIRE$|^FIRE| fem | fem$|^fem| Fem | Fem$|^Fem| FEM | FEM$|^FEM| seks | seks$|^seks| Seks | Seks$|^Seks| SEKS | SEKS$| ^SYV| otte | otte$|^otte| Otte | Otte$|^Otte| OTTE | OTTE$|^OTTE| ni | ni$|^ni| Ni | Ni$|^Ni| NI | NI$|^NI| ti | ti$|^ti| Ti | Ti$|^Ti| TI | TI$|^TI
用于匹配已标注为LOCATION的"Himlen"或"Himmelen",例如"HIMLEN":
[Hh][iI][mM][lL][Ee][Nn]|[Hh][iI][mM][mM][Ee][lL][Ee][Nn]
用于匹配已标注为PERSON的"Gud",例如"GUD":
[Gg][Uu][Dd]
用于匹配错误标记为CARDINAL的电话号码,例如"20 40 44 30":
\d{2} \d{2} \d{2} \d{2}
\+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$
\+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$
 \d{4} ?\d{4}$
^\d{4} ?\d{4}$
 用于匹配已错误标记为ORGANIZATION的网站:
.dk$|.com$
用于匹配错误标记为ORGANIZATION的酒店和度假村:
.*[h|H]otel.*|.*[R|r]esort.*
用于匹配包含/或:的数字,已错误标记为CARDINAL:
\/ \/ -
用于匹配已错误标记为LAW的权利:
[C|c]opyright [®|©] [f|F]ortrydelsesret [o|O]phavsret$ enneskeret
创作共用署名-相同方式共享4.0国际许可协议
该论文正在进行中。