IXAmBERT基础大小写

这是一个针对英语、西班牙语和巴斯克语进行预训练的多语言模型。训练语料库由英语、西班牙语和巴斯克语的维基百科组成，以及来自在线报纸的巴斯克语抓取新闻文章。据报道，在 Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque 篇论文中，该模型在从英语到巴斯克语的知识转移方面表现优于mBERT。以下表格显示了在巴斯克语CQA数据集上的结果:

Model	Zero-shot	Transfer learning
Baseline	28.7	28.7
mBERT	31.5	37.4
IXAmBERT	38.9	41.2
mBERT + history	33.3	28.7
IXAmBERT + history	40.7	40.0

该表格显示了在巴斯克语CQA数据集上的结果。"零-shot"表示该模型在使用英语CQA数据集QuaC进行微调时的表现。在"迁移学习"设置中，该模型首先在QuaC上进行微调，然后在巴斯克语CQA数据集上进行微调。

如果使用此模型，请引用以下论文：

@inproceedings{otegi2020conversational,
  title={Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque},
  author={Otegi, Arantxa and Agirre, Aitor and Campos, Jon Ander and Soroa, Aitor and Agirre, Eneko},
  booktitle={Proceedings of The 12th Language Resources and Evaluation Conference},
  pages={436--442},
  year={2020}
}

作者:

Ixa taldea

数据集大小:

680.82 MB