数据集:
BSC-LT/ancora-ca-ner
语言:
如果您在您的工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}
 https://doi.org/10.5281/zenodo.4529299
这是为了机器学习和语言模型评估目的而从 Ancora corpus 调整的命名实体识别(NER)数据集。
由于原始Ancora语料库中的复合词(包括命名实体)被合并为单个词汇项,使用下划线(例如"Ajuntament_de_Barcelona"),我们将它们分割以与每行一个词的格式对齐,并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别(弱和强)。我们进行了6次手动编辑。
AnCora语料库采用[CC-by]( https://creativecommons.org/licenses/by/4.0/ )许可证。
该数据集是BSC TeMU作为AINA项目的一部分开发的,并用于丰富Catalan Language Understanding Benchmark(CLUB)。
命名实体识别,语言模型
CA- Catalan
三个双列文件,每个拆分一个文件。
每个文件有两列,第一列是单词形式或标点符号,第二列是相应的IOB标签。
    Fundació B-ORG
    Privada I-ORG
    Fira I-ORG
    de I-ORG
    Manresa I-ORG
    ha O
    fet O
    un O
    balanç O
    de O
    l' O
    activitat O
    del O
    Palau B-LOC
    Firal I-LOC
 每个子数据集拆分为训练、评估和测试。
我们将Ancora语料库的NER标签调整为每个词一行的格式。由于原始Ancora语料库中的复合词被合并为单个词汇项,使用下划线(例如"Ajuntament_de_Barcelona"),我们将它们分割以与这种格式对齐,并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别(弱和强)。我们进行了6次手动编辑。
AnCora由加泰罗尼亚语语料库(AnCora-CA)和西班牙语语料库(AnCora-ES)组成,每个语料库都有500,000个标记(一些是多词)。这些语料库在不同层次上对语言现象进行了注释。AnCora语料库主要基于新闻稿件。更多信息,请参阅Taulé, M., M.A. Martí, M. Recasens(2009)。“AnCora: Multilevel Annotated Corpora for Catalan and Spanish”,第六届语言资源和评估国际会议论文集。 http://www.lrec-conf.org/proceedings/lrec2008/pdf/35_paper.pdf
谁是源语言制作人?加泰罗尼亚语Ancora语料库编译自以下新闻媒体的文章: EFE , ACN , El Periodico 。
我们将Ancora语料库的NER标签调整为每个词一行,多列的格式。
谁是标注者?Ancora语料库的原始注释者。
Carlos Rodríguez和Carme Armentano,来自BSC-CNS,进行了转换和策划。
不包含个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos或Carme Armentano-Oller( bsc-temu@bsc.es )
 
    This work is licensed under a  
   Attribution 4.0 International License
    .
    This work is licensed under a  
   Attribution 4.0 International License
    .