数据集:
ipipan/nkjp1m
许可:
源数据集:
original批注创建人:
expert-generated语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
monolingual语言:
任务:
这是NKJP1M的官方数据集 - 波兰国家语料库(Narodowy Korpus Języka Polskiego)的100万词汇平衡子语料库
除了文本(分段/样本和句子),该数据集还包含语料库中所有标记的词形和句法标签。
此版本被称为NKJP1M-SGJP,对应于1.2版的语料库,后来进行了纠正和改进。特别是句法标注已与Morfeusz2 SGJP形态分析器的当前版本(截至2022.12.04)对齐。
此资源的主要用途是训练波兰词形还原和词性标注模型。
波兰语(单语)
{'nkjp_text': 'NKJP_1M_1102000002',
'nkjp_par': 'morph_1-p',
'nkjp_sent': 'morph_1.18-s',
'tokens': ['-', 'Nie', 'mam', 'pieniędzy', ',', 'da', 'mi', 'pani', 'wywiad', '?'],
'lemmas': ['-', 'nie', 'mieć', 'pieniądz', ',', 'dać', 'ja', 'pani', 'wywiad', '?'],
'cposes': [8, 11, 10, 9, 8, 10, 9, 9, 9, 8],
'poses': [19, 25, 12, 35, 19, 12, 28, 35, 35, 19],
'tags': [266, 464, 213, 923, 266, 218, 692, 988, 961, 266],
'nps': [False, False, False, False, True, False, False, False, False, True],
'nkjp_ids': ['morph_1.9-seg', 'morph_1.10-seg', 'morph_1.11-seg', 'morph_1.12-seg', 'morph_1.13-seg', 'morph_1.14-seg', 'morph_1.15-seg', 'morph_1.16-seg', 'morph_1.17-seg', 'morph_1.18-seg']}
| Train | Validation | Test | |
|---|---|---|---|
| sentences | 68943 | 7755 | 8964 |
| tokens | 978368 | 112454 | 125059 |
波兰国家语料库(NKJP)被设想为当代波兰的参考语料库。
手工标记的子语料库(NKJP1M)被认为是各种自然语言处理任务的训练数据。
NKJP相对于波兰读者的平衡性。详细的理由在第3章中描述 NKJP book (大致上:50%新闻,30%书籍,10%演讲,10%其他)。语料库包含1945年至2010年的文本(其中80%的文本在1990年至2010年范围内)。仅收集了波兰语原始文本(没有其他语言的翻译)。NKJP1M的构成遵循此模式(见第5章)。
NKJP使用的形态句法标注规则在第6章中讨论 NKJP book .目前(2020年),该语料库使用与形态分析器相关的公共标签集 Morfeusz 2 .
注释过程文本使用Morfeusz进行处理,然后手动消除歧义,并进行验证/更正。每个文本样本由两个标注员独立处理。如果存在注释冲突,则由仲裁者介入。
这项工作根据
Creative Commons Attribution 4.0 International License
许可。
关于源语料库的信息: link
@Book{nkjp:12,
editor = "Adam Przepiórkowski and Mirosław Bańko and Rafał
L. Górski and Barbara Lewandowska-Tomaszczyk",
title = "Narodowy Korpus Języka Polskiego",
year = 2012,
address = "Warszawa",
pdf = "http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf",
publisher = "Wydawnictwo Naukowe PWN"}
当前的标注方案: link
@article{
kie:etal:21,
author = "Kieraś, Witold and Woliński, Marcin and Nitoń, Bartłomiej",
doi = "https://doi.org/10.31286/JP.101.2.5",
title = "Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego {N}arodowego {K}orpusu {J}ęzyka {P}olskiego",
url = "https://jezyk-polski.pl/index.php/jp/article/view/72",
journal = "Język Polski",
number = "2",
volume = "CI",
year = "2021",
pages = "59--70"
}