数据集:

conll2012_ontonotesv5

任务:

标记分类

子任务:

named-entity-recognition part-of-speech coreference-resolution

语言:

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

其他:

semantic-role-labeling

许可:

cc-by-nc-nd-4.0

数据集介绍文件清单

英文

CoNLL2012共享任务数据基于OntoNotes 5.0的数据集卡片

数据集概述

OntoNotes v5.0是OntoNotes语料库的最终版本，是一个手动注释的大规模、多类型、多语言语料库，包含句法、语义和话语信息。

这个数据集是OntoNotes v5.0的扩展版本，用于CoNLL-2012共享任务。它包括英语/中文/阿拉伯语的v4训练/开发和v9测试数据，以及修正版本v12训练/开发/测试数据（仅英语）。

数据的来源是Mendeley Data repo ontonotes-conll2012 ，它似乎与官方数据相同，但用户使用此数据集需自行负责。

另请参阅paperwithcode OntoNotes 5.0 和 CoNLL-2012 的摘要。

对于数据集的更详细信息，如注释、标签集等，可以参考上述Mendeley repo中的文档。

支持的任务和排行榜

语言

阿拉伯语、中文、英语的V4数据，以及英语的V12数据

数据集结构

数据实例

{
  {'document_id': 'nw/wsj/23/wsj_2311',
 'sentences': [{'part_id': 0,
                'words': ['CONCORDE', 'trans-Atlantic', 'flights', 'are', '$', '2, 'to', 'Paris', 'and', '$', '3, 'to', 'London', '.']},
                'pos_tags': [25, 18, 27, 43, 2, 12, 17, 25, 11, 2, 12, 17, 25, 7],
                'parse_tree': '(TOP(S(NP (NNP CONCORDE)  (JJ trans-Atlantic)  (NNS flights) )(VP (VBP are) (NP(NP(NP ($ $)  (CD 2,400) )(PP (IN to) (NP (NNP Paris) ))) (CC and) (NP(NP ($ $)  (CD 3,200) )(PP (IN to) (NP (NNP London) ))))) (. .) ))',
                'predicate_lemmas': [None, None, None, 'be', None, None, None, None, None, None, None, None, None, None],
                'predicate_framenet_ids': [None, None, None, '01', None, None, None, None, None, None, None, None, None, None],
                'word_senses': [None, None, None, None, None, None, None, None, None, None, None, None, None, None],
                'speaker': None,
                'named_entities': [7, 6, 0, 0, 0, 15, 0, 5, 0, 0, 15, 0, 5, 0],
                'srl_frames': [{'frames': ['B-ARG1', 'I-ARG1', 'I-ARG1', 'B-V', 'B-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'O'],
                                'verb': 'are'}],
                'coref_spans': [],
               {'part_id': 0,
                'words': ['In', 'a', 'Centennial', 'Journal', 'article', 'Oct.', '5', ',', 'the', 'fares', 'were', 'reversed', '.']}]}
                'pos_tags': [17, 13, 25, 25, 24, 25, 12, 4, 13, 27, 40, 42, 7],
                'parse_tree': '(TOP(S(PP (IN In) (NP (DT a) (NML (NNP Centennial)  (NNP Journal) ) (NN article) ))(NP (NNP Oct.)  (CD 5) ) (, ,) (NP (DT the)  (NNS fares) )(VP (VBD were) (VP (VBN reversed) )) (. .) ))',
                'predicate_lemmas': [None, None, None, None, None, None, None, None, None, None, None, 'reverse', None],
                'predicate_framenet_ids': [None, None, None, None, None, None, None, None, None, None, None, '01', None],
                'word_senses': [None, None, None, None, None, None, None, None, None, None, None, None, None],
                'speaker': None,
                'named_entities': [0, 0, 4, 22, 0, 12, 30, 0, 0, 0, 0, 0, 0],
                'srl_frames': [{'frames': ['B-ARGM-LOC', 'I-ARGM-LOC', 'I-ARGM-LOC', 'I-ARGM-LOC', 'I-ARGM-LOC', 'B-ARGM-TMP', 'I-ARGM-TMP', 'O', 'B-ARG1', 'I-ARG1', 'O', 'B-V', 'O'],
                                'verb': 'reversed'}],
                'coref_spans': [],
}

数据字段

document_id（str）: 这是文件名的变体
sentences（List[Dict]）: 同一文档中的所有句子在一个示例中，便于连接句子。

sentences中的每个元素都是一个由以下数据字段组成的字典：

part_id（int）: 一些文件被分成多个部分，编号为000、001、002，等等。
words（List[str]）: 单词列表
pos_tags（List[ClassLabel]或List[str]）: 这是Penn-Treebank风格的词性。当解析信息丢失时，除了与某些意义或命题注释相关的部分之外，所有部分都标有XX标签。动词只标有VERB标签。
- 标签集: 下面的标签集是通过扫描所有数据而找到的，我发现它似乎与官方声明的标签集略有不同。请参阅 Mendeley repo 中的官方文档
  - 阿拉伯语: str。因为阿拉伯语中的词性标签是复合和复杂的，难以用ClassLabel表示
  - 中文v4: datasets.ClassLabel(num_classes=36, names=["X", "AD", "AS", "BA", "CC", "CD", "CS", "DEC", "DEG", "DER", "DEV", "DT", "ETC", "FW", "IJ", "INF", "JJ", "LB", "LC", "M", "MSP", "NN", "NR", "NT", "OD", "ON", "P", "PN", "PU", "SB", "SP", "URL", "VA", "VC", "VE", "VV"])，其中X表示缺失的词性标签
  - 英语v4: datasets.ClassLabel(num_classes=49, names=["XX", "``", "$", "''", ",", "-LRB-", "-RRB-", ".", ":", "ADD", "AFX", "CC", "CD", "DT", "EX", "FW", "HYPH", "IN", "JJ", "JJR", "JJS", "LS", "MD", "NFP", "NN", "NNP", "NNPS", "NNS", "PDT", "POS", "PRP", "PRP$", "RB", "RBR", "RBS", "RP", "SYM", "TO", "UH", "VB", "VBD", "VBG", "VBN", "VBP", "VBZ", "WDT", "WP", "WP$", "WRB"])，其中XX表示缺失的词性标签，-LRB- / -RRB- 是 "(" / ")"
  - 英语v12: datasets.ClassLabel(num_classes=51, names="english_v12": ["XX", "``", "$", "''", "*", ",", "-LRB-", "-RRB-", ".", ":", "ADD", "AFX", "CC", "CD", "DT", "EX", "FW", "HYPH", "IN", "JJ", "JJR", "JJS", "LS", "MD", "NFP", "NN", "NNP", "NNPS", "NNS", "PDT", "POS", "PRP", "PRP$", "RB", "RBR", "RBS", "RP", "SYM", "TO", "UH", "VB", "VBD", "VBG", "VBN", "VBP", "VBZ", "VERB", "WDT", "WP", "WP$", "WRB"])，其中XX表示缺失的词性标签，-LRB- / -RRB- 是 "(" / ")"
parse_tree（Optional[str]）: 一个表示解析的序列化NLTK树。它包含作为前置终端节点的POS标签。当解析信息丢失时，解析将为None。
predicate_lemmas（List[Optional[str]]）: 具有语义角色信息或词义信息的单词的谓词词元。其他所有索引都为None。
predicate_framenet_ids（List[Optional[int]]）: predicate_lemmas中词元的PropBank框架集ID，或者为None。
word_senses（List[Optional[float]]）: 句子中单词的词义，或者为None。这些是浮点数，因为词义可以有小数值，如1.1。
speaker（Optional[str]）: 此处是可用的说话者或作者姓名。主要用于广播对话和网络日志数据。如果不可用，将为None。
named_entities（List[ClassLabel]）: 句子中命名实体的BIO标签。
- 标签集: datasets.ClassLabel(num_classes=37, names=["O", "B-PERSON", "I-PERSON", "B-NORP", "I-NORP", "B-FAC", "I-FAC", "B-ORG", "I-ORG", "B-GPE", "I-GPE", "B-LOC", "I-LOC", "B-PRODUCT", "I-PRODUCT", "B-DATE", "I-DATE", "B-TIME", "I-TIME", "B-PERCENT", "I-PERCENT", "B-MONEY", "I-MONEY", "B-QUANTITY", "I-QUANTITY", "B-ORDINAL", "I-ORDINAL", "B-CARDINAL", "I-CARDINAL", "B-EVENT", "I-EVENT", "B-WORK_OF_ART", "I-WORK_OF_ART", "B-LAW", "I-LAW", "B-LANGUAGE", "I-LANGUAGE"])
srl_frames（List[{"word":str, "frames":List[str]}]）: 一个由给定Propbank框架标签的句子中的动词为键的字典，以BIO格式表示。
coref spans（List[List[int]]）: 句子中涉及共指消解的实体提及的跨度。每个元素都是一个由（cluster_id，start_index，end_index）组成的元组。索引是全包含的。

数据拆分

每个数据集（arabic_v4，chinese_v4，english_v4，english_v12）都有3个拆分: 训练、验证和测试

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{pradhan-etal-2013-towards,
    title = "Towards Robust Linguistic Analysis using {O}nto{N}otes",
    author = {Pradhan, Sameer  and
      Moschitti, Alessandro  and
      Xue, Nianwen  and
      Ng, Hwee Tou  and
      Bj{\"o}rkelund, Anders  and
      Uryupina, Olga  and
      Zhang, Yuchen  and
      Zhong, Zhi},
    booktitle = "Proceedings of the Seventeenth Conference on Computational Natural Language Learning",
    month = aug,
    year = "2013",
    address = "Sofia, Bulgaria",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W13-3516",
    pages = "143--152",
}

贡献者

感谢 @richarddwang 添加了这个数据集。

作者:

佚名

数据集大小:

75.23 KB