数据集:

BSC-LT/ancora-ca-ner

语言:

数据集介绍文件清单

英文

从Ancora语料库中提取命名实体

BibTeX 引用

如果您在您的工作中使用了这些资源（数据集或模型），请引用我们的最新论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

数字对象标识符（DOI）和获取数据集文件的方式

https://doi.org/10.5281/zenodo.4529299

简介

这是为了机器学习和语言模型评估目的而从 Ancora corpus 调整的命名实体识别（NER）数据集。

由于原始Ancora语料库中的复合词（包括命名实体）被合并为单个词汇项，使用下划线（例如"Ajuntament_de_Barcelona"），我们将它们分割以与每行一个词的格式对齐，并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别（弱和强）。我们进行了6次手动编辑。

AnCora语料库采用[CC-by]（ https://creativecommons.org/licenses/by/4.0/ ）许可证。

该数据集是BSC TeMU作为AINA项目的一部分开发的，并用于丰富Catalan Language Understanding Benchmark（CLUB）。

支持的任务和排行榜

命名实体识别，语言模型

语言

CA- Catalan

目录结构

dev.txt
test.txt
train.txt

数据集结构

数据实例

三个双列文件，每个拆分一个文件。

数据字段

每个文件有两列，第一列是单词形式或标点符号，第二列是相应的IOB标签。

示例:

    Fundació B-ORG
    Privada I-ORG
    Fira I-ORG
    de I-ORG
    Manresa I-ORG
    ha O
    fet O
    un O
    balanç O
    de O
    l' O
    activitat O
    del O
    Palau B-LOC
    Firal I-LOC

数据拆分

每个子数据集拆分为训练、评估和测试。

数据集创建

方法论

我们将Ancora语料库的NER标签调整为每个词一行的格式。由于原始Ancora语料库中的复合词被合并为单个词汇项，使用下划线（例如"Ajuntament_de_Barcelona"），我们将它们分割以与这种格式对齐，并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别（弱和强）。我们进行了6次手动编辑。

策划原理

源数据

初始数据收集和规范化

AnCora由加泰罗尼亚语语料库（AnCora-CA）和西班牙语语料库（AnCora-ES）组成，每个语料库都有500,000个标记（一些是多词）。这些语料库在不同层次上对语言现象进行了注释。AnCora语料库主要基于新闻稿件。更多信息，请参阅Taulé, M., M.A. Martí, M. Recasens（2009）。“AnCora: Multilevel Annotated Corpora for Catalan and Spanish”，第六届语言资源和评估国际会议论文集。 http://www.lrec-conf.org/proceedings/lrec2008/pdf/35_paper.pdf

谁是源语言制作人？

加泰罗尼亚语Ancora语料库编译自以下新闻媒体的文章： EFE , ACN , El Periodico 。

注释

注释过程

我们将Ancora语料库的NER标签调整为每个词一行，多列的格式。

谁是标注者？

Ancora语料库的原始注释者。

数据集策划者

Carlos Rodríguez和Carme Armentano，来自BSC-CNS，进行了转换和策划。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或Carme Armentano-Oller（ bsc-temu@bsc.es ）

许可证

This work is licensed under a Attribution 4.0 International License .

作者:

BSC-LT

数据集大小:

3.27 MB