模型:
ixa-ehu/ixambert-base-cased
语言:
这是一个针对英语、西班牙语和巴斯克语进行预训练的多语言模型。训练语料库由英语、西班牙语和巴斯克语的维基百科组成,以及来自在线报纸的巴斯克语抓取新闻文章。据报道,在 Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque 篇论文中,该模型在从英语到巴斯克语的知识转移方面表现优于mBERT。以下表格显示了在巴斯克语CQA数据集上的结果:
Model | Zero-shot | Transfer learning |
---|---|---|
Baseline | 28.7 | 28.7 |
mBERT | 31.5 | 37.4 |
IXAmBERT | 38.9 | 41.2 |
mBERT + history | 33.3 | 28.7 |
IXAmBERT + history | 40.7 | 40.0 |
该表格显示了在巴斯克语CQA数据集上的结果。"零-shot"表示该模型在使用英语CQA数据集QuaC进行微调时的表现。在"迁移学习"设置中,该模型首先在QuaC上进行微调,然后在巴斯克语CQA数据集上进行微调。
如果使用此模型,请引用以下论文:
@inproceedings{otegi2020conversational, title={Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque}, author={Otegi, Arantxa and Agirre, Aitor and Campos, Jon Ander and Soroa, Aitor and Agirre, Eneko}, booktitle={Proceedings of The 12th Language Resources and Evaluation Conference}, pages={436--442}, year={2020} }