数据集:

gsarti/itacola

语言:

it

计算机处理:

monolingual

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2109.12053
英文

ItaCoLA数据集卡片

数据集概述

意大利语言可接受性语料库包括近10,000个句子,取自语言文献,并由原始作者进行了二元标注。该工作受到了英文的启发。

免责声明:ItaCoLA语料库由 Digital Humanities group at FBK 在Github上托管。它在 Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus 文章中被 Daniela Trotta Raffaele Guarasci Elisa Leonardelli Sara Tonelli 介绍。

支持的任务和排行榜

可接受性分类

下表摘自原始论文的表4,其中一个在意大利语上预训练的LSTM和BERT模型在语料库的训练拆分上进行微调,并分别在测试拆分(域内,内部)和[AcCompl-it]语料库的可接受性部分上进行评估(域外,域外)。模型在这两种设置下使用准确率(Acc.)和马修斯相关系数(MCC)进行评估。结果在10次运行中进行平均,并具有±标准差误差范围。

in , Acc. in , MCC out , Acc. out , MCC
LSTM 0.794 0.278 ± 0.029 0.605 0.147 ± 0.066
ITA-BERT 0.904 0.603 ± 0.022 0.683 0.198 ± 0.036

语言

ItaCoLA中的语言数据为意大利语(BCP-47:it)。

数据集结构

数据实例

评分配置

评分配置包含具有可接受性判断的句子。下面是来自评分配置(默认)的训练拆分的示例。

{
    "unique_id": 1,
    "source": "Graffi_1994",
    "acceptability": 1,
    "sentence": "Quest'uomo mi ha colpito."
}

文本原样提供,没有经过进一步的预处理或标记。

字段如下:

  • unique_id:跨配置的句子的唯一标识符。
  • source:句子的原始来源。
  • acceptability:二进制得分,1表示可接受,0表示不可接受。
  • sentence:被评估的句子。
现象配置

现象配置包含从评分中手动注释的一组句子示例,用于表示9个语言现象的存在。下面是训练拆分的示例:

{
    "unique_id": 1,
    "source": "Graffi_1994",
    "acceptability": 1,
    "sentence": "Quest'uomo mi ha colpito.",
    "cleft_construction": 0,
    "copular_construction": 0,
    "subject_verb_agreement": 1,
    "wh_islands_violations": 0,
    "simple": 0,
    "question": 0,
    "auxiliary": 1,
    "bind": 0,
    "indefinite_pronouns": 0
}

对于每个新字段,二进制得分的值表示相应现象的存在(1)或不存在(0)。有关每个现象的详细说明,请参阅原始论文。

数据拆分

config train test
scores 7801 975
phenomena 2088 -

数据集创建

有关数据集创建的更多信息,请参考原始文章 Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus

附加信息

数据集策划者

作者是原始数据集的策划者。如有关于此 ? 数据集版本的问题或更新,请联系gabriele.sarti996@gmail.com。

许可信息

没有可用的许可信息。

引用信息

如果您在工作中使用这些语料库,请引用作者。

@inproceedings{trotta-etal-2021-monolingual-cross,
    title = "Monolingual and Cross-Lingual Acceptability Judgments with the {I}talian {C}o{LA} corpus",
    author = "Trotta, Daniela  and
      Guarasci, Raffaele  and
      Leonardelli, Elisa  and
      Tonelli, Sara",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
    month = nov,
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-emnlp.250",
    doi = "10.18653/v1/2021.findings-emnlp.250",
    pages = "2929--2940"
}