数据集:

conllpp

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|conll2003
英文

"conllpp"的数据集卡片

数据集概述

CoNLLpp是CoNLL2003 NER数据集的修正版本,在测试集中5.38%的句子标签已经进行了手动校正。训练集和开发集来自CoNLL2003,以保证完整性。例如,测试集的一次校正是:

{
    "tokens": ["SOCCER", "-", "JAPAN", "GET", "LUCKY", "WIN", ",", "CHINA", "IN", "SURPRISE", "DEFEAT", "."],
    "original_ner_tags_in_conll2003": ["O", "O", "B-LOC", "O", "O", "O", "O", "B-PER", "O", "O", "O", "O"],
    "corrected_ner_tags_in_conllpp": ["O", "O", "B-LOC", "O", "O", "O", "O", "B-LOC", "O", "O", "O", "O"],
}

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

conllpp
  • 下载的数据集文件大小:4.85 MB
  • 生成的数据集大小:10.26 MB
  • 使用的总磁盘空间:15.11 MB

'train'的一个示例如下所示。

This example was too long and was cropped:

{
    "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0],
    "id": "0",
    "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7],
    "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."]
}

数据字段

所有拆分中的数据字段相同。

conllpp
  • id:字符串特征。
  • tokens:字符串特征列表。
  • pos_tags:分类标签列表,可能的值包括 " (0),'' (1),# (2),$ (3),( (4)。
  • chunk_tags:分类标签列表,可能的值包括O (0),B-ADJP (1),I-ADJP (2),B-ADVP (3),I-ADVP (4)。
  • ner_tags:分类标签列表,可能的值包括O (0),B-PER (1),I-PER (2),B-ORG (3),I-ORG (4)。

数据拆分

name train validation test
conll2003 14041 3250 3453

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{wang2019crossweigh,
  title={CrossWeigh: Training Named Entity Tagger from Imperfect Annotations},
  author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei},
  booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},
  pages={5157--5166},
  year={2019}
}

贡献

感谢 @ZihanWangKi 添加此数据集。