模型:
projecte-aina/roberta-base-ca-cased-pos
robberta-base-ca-cased-pos 是一个用于加泰罗尼亚语的词性标注(POS)模型,从 robberta-base-ca 模型微调而来, robberta-base-ca 是一个在公开可用的语料库和网络爬虫上训练的中等规模语言模型,共训练了 RoBERTa 个基本模型。
robberta-base-ca-cased-pos 模型可用于对文本进行词性标注(POS)处理。该模型受限于其训练数据集,可能对所有用例的泛化能力有限。
使用该模型的方法如下:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("token-classification", model="projecte-aina/roberta-base-ca-cased-pos")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
pos_results = nlp(example)
pprint(pos_results)
在提交时,我们尚未采取任何措施来估计模型中的偏见。然而,我们充分意识到我们的模型可能存在偏见,因为通过在多个网络来源上使用爬取技术收集语料库。我们打算在未来开展研究,并在完成后更新此模型卡。
我们使用了来自 Ancora-ca-pos 的加泰罗尼亚语POS数据集进行训练和评估。详细情况请参阅 Ancora-ca-pos。
模型的批量大小为16,学习率为5e-5,训练了5个周期。然后,我们使用相应开发集中的下游任务指标选择了最佳检查点,并在测试集上进行了评估。
该模型经过微调,最大化了F1分数。
我们将 robberta-base-ca-cased-pos 在 Ancora-ca-ner 测试集上与标准的多语言和单语基线进行了评估:
| Model | AnCora-Ca-POS (F1) |
|---|---|
| roberta-base-ca-cased-pos | 98.93 |
| mBERT | 98.82 |
| XLM-RoBERTa | 98.89 |
| WikiBERT-ca | 97.60 |
更多细节,请查看官方的微调和评估脚本。
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘组(TeMU)( bsc-temu@bsc.es )
如需更多信息,请发送电子邮件至 aina@bsc.es
版权所有 (c) 2022 巴塞罗那超级计算中心(Barcelona Supercomputing Center)文本挖掘组(Text Mining Unit)
本工作是由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内资助的。
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
本存储库中发布的模型旨在供广泛用途,并提供给第三方使用。这些模型可能存在偏见或其他不可取的失真。
当第三方使用这些模型(或基于这些模型的系统)部署或提供给其他方的系统和/或服务,或成为模型的用户时,他们应注意,他们有责任减少由使用这些模型带来的风险,并在任何情况下都要遵守适用法规,包括关于使用人工智能的法规。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)不对第三方使用这些模型所产生的结果负责。