模型:
ixa-ehu/ixambert-base-cased
语言:
这是一个针对英语、西班牙语和巴斯克语进行预训练的多语言模型。训练语料库由英语、西班牙语和巴斯克语的维基百科组成,以及来自在线报纸的巴斯克语抓取新闻文章。据报道,在 Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque 篇论文中,该模型在从英语到巴斯克语的知识转移方面表现优于mBERT。以下表格显示了在巴斯克语CQA数据集上的结果:
| Model | Zero-shot | Transfer learning |
|---|---|---|
| Baseline | 28.7 | 28.7 |
| mBERT | 31.5 | 37.4 |
| IXAmBERT | 38.9 | 41.2 |
| mBERT + history | 33.3 | 28.7 |
| IXAmBERT + history | 40.7 | 40.0 |
该表格显示了在巴斯克语CQA数据集上的结果。"零-shot"表示该模型在使用英语CQA数据集QuaC进行微调时的表现。在"迁移学习"设置中,该模型首先在QuaC上进行微调,然后在巴斯克语CQA数据集上进行微调。
如果使用此模型,请引用以下论文:
@inproceedings{otegi2020conversational,
title={Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque},
author={Otegi, Arantxa and Agirre, Aitor and Campos, Jon Ander and Soroa, Aitor and Agirre, Eneko},
booktitle={Proceedings of The 12th Language Resources and Evaluation Conference},
pages={436--442},
year={2020}
}