模型:

ixa-ehu/ixambert-base-cased

英文

IXAmBERT基础大小写

这是一个针对英语、西班牙语和巴斯克语进行预训练的多语言模型。训练语料库由英语、西班牙语和巴斯克语的维基百科组成,以及来自在线报纸的巴斯克语抓取新闻文章。据报道,在 Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque 篇论文中,该模型在从英语到巴斯克语的知识转移方面表现优于mBERT。以下表格显示了在巴斯克语CQA数据集上的结果:

Model Zero-shot Transfer learning
Baseline 28.7 28.7
mBERT 31.5 37.4
IXAmBERT 38.9 41.2
mBERT + history 33.3 28.7
IXAmBERT + history 40.7 40.0

该表格显示了在巴斯克语CQA数据集上的结果。"零-shot"表示该模型在使用英语CQA数据集QuaC进行微调时的表现。在"迁移学习"设置中,该模型首先在QuaC上进行微调,然后在巴斯克语CQA数据集上进行微调。

如果使用此模型,请引用以下论文:

@inproceedings{otegi2020conversational,
  title={Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque},
  author={Otegi, Arantxa and Agirre, Aitor and Campos, Jon Ander and Soroa, Aitor and Agirre, Eneko},
  booktitle={Proceedings of The 12th Language Resources and Evaluation Conference},
  pages={436--442},
  year={2020}
}