数据集:
gsarti/itacola
任务:
语言:
计算机处理:
monolingual语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2109.12053许可:
意大利语言可接受性语料库包括近10,000个句子,取自语言文献,并由原始作者进行了二元标注。该工作受到了英文的启发。
免责声明:ItaCoLA语料库由 Digital Humanities group at FBK 在Github上托管。它在 Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus 文章中被 Daniela Trotta 、 Raffaele Guarasci 、 Elisa Leonardelli 、 Sara Tonelli 介绍。
下表摘自原始论文的表4,其中一个在意大利语上预训练的LSTM和BERT模型在语料库的训练拆分上进行微调,并分别在测试拆分(域内,内部)和[AcCompl-it]语料库的可接受性部分上进行评估(域外,域外)。模型在这两种设置下使用准确率(Acc.)和马修斯相关系数(MCC)进行评估。结果在10次运行中进行平均,并具有±标准差误差范围。
| in , Acc. | in , MCC | out , Acc. | out , MCC | |
|---|---|---|---|---|
| LSTM | 0.794 | 0.278 ± 0.029 | 0.605 | 0.147 ± 0.066 | 
| ITA-BERT | 0.904 | 0.603 ± 0.022 | 0.683 | 0.198 ± 0.036 | 
ItaCoLA中的语言数据为意大利语(BCP-47:it)。
评分配置包含具有可接受性判断的句子。下面是来自评分配置(默认)的训练拆分的示例。
{
    "unique_id": 1,
    "source": "Graffi_1994",
    "acceptability": 1,
    "sentence": "Quest'uomo mi ha colpito."
}
 文本原样提供,没有经过进一步的预处理或标记。
字段如下:
现象配置包含从评分中手动注释的一组句子示例,用于表示9个语言现象的存在。下面是训练拆分的示例:
{
    "unique_id": 1,
    "source": "Graffi_1994",
    "acceptability": 1,
    "sentence": "Quest'uomo mi ha colpito.",
    "cleft_construction": 0,
    "copular_construction": 0,
    "subject_verb_agreement": 1,
    "wh_islands_violations": 0,
    "simple": 0,
    "question": 0,
    "auxiliary": 1,
    "bind": 0,
    "indefinite_pronouns": 0
}
 对于每个新字段,二进制得分的值表示相应现象的存在(1)或不存在(0)。有关每个现象的详细说明,请参阅原始论文。
| config | train | test | 
|---|---|---|
| scores | 7801 | 975 | 
| phenomena | 2088 | - | 
有关数据集创建的更多信息,请参考原始文章 Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus 。
作者是原始数据集的策划者。如有关于此 🤗 数据集版本的问题或更新,请联系gabriele.sarti996@gmail.com。
没有可用的许可信息。
如果您在工作中使用这些语料库,请引用作者。
@inproceedings{trotta-etal-2021-monolingual-cross,
    title = "Monolingual and Cross-Lingual Acceptability Judgments with the {I}talian {C}o{LA} corpus",
    author = "Trotta, Daniela  and
      Guarasci, Raffaele  and
      Leonardelli, Elisa  and
      Tonelli, Sara",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
    month = nov,
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-emnlp.250",
    doi = "10.18653/v1/2021.findings-emnlp.250",
    pages = "2929--2940"
}