数据集:
DFKI-SLT/few-nerd
任务:
语言:
计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
expert-generated源数据集:
extended|wikipedia许可:
此脚本用于从 https://ningding97.github.io/fewnerd/ 加载 Few-NERD 数据集。
Few-NERD 是一个大规模,细粒度手动注释的命名实体识别数据集,包括 8 个粗粒度类型,66 个细粒度类型,188,200 个句子,491,711 个实体和 4,601,223 个标记。构建了三个基准任务,一个是监督式(Few-NERD (SUP)),另外两个是少样本学习(Few-NERD (INTRA) 和 Few-NERD (INTER))。
NER 标签使用 IO 标记方案。原始数据使用两列 CoNLL 风格的格式,句子之间用空行分隔。由于句子是随机排序的,没有提供 DOCSTART 信息。
详情请参阅 https://ningding97.github.io/fewnerd/ 和 https://aclanthology.org/2021.acl-long.248/ 。
英语
下载的数据集文件大小:
生成的数据集大小:
使用的总磁盘空间:366.8 MB
'train' 的示例如下所示。
{
'id': '1',
'tokens': ['It', 'starred', 'Hicks', "'s", 'wife', ',', 'Ellaline', 'Terriss', 'and', 'Edmund', 'Payne', '.'],
'ner_tags': [0, 0, 7, 0, 0, 0, 7, 7, 0, 7, 7, 0],
'fine_ner_tags': [0, 0, 51, 0, 0, 0, 50, 50, 0, 50, 50, 0]
}
所有拆分的数据字段都相同。
| Task | Train | Dev | Test |
|---|---|---|---|
| SUP | 131767 | 18824 | 37648 |
| INTRA | 99519 | 19358 | 44059 |
| INTER | 130112 | 18817 | 14007 |
@inproceedings{ding-etal-2021-nerd,
title = "Few-{NERD}: A Few-shot Named Entity Recognition Dataset",
author = "Ding, Ning and
Xu, Guangwei and
Chen, Yulin and
Wang, Xiaobin and
Han, Xu and
Xie, Pengjun and
Zheng, Haitao and
Liu, Zhiyuan",
booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.acl-long.248",
doi = "10.18653/v1/2021.acl-long.248",
pages = "3198--3213",
}