数据集:
xtreme
跨语言自然语言推理(XNLI)语料库是一个众包收集的数据集,包含了5,000个测试对和2,500个开发对,这些对是基于MultiNLI语料库进行了文本蕴含性注释,并且翻译成了14种语言:法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。这导致总共有112.5k个被注释的对。每个前提都可以与15种语言中相应的假设关联起来,总共超过1.5M种组合。该语料库旨在评估在训练时只有英文NLI数据可用的情况下,如何执行任意语言(包括斯瓦希里语或乌尔都语等低资源语言)的推理。其中一个解决方案是跨语言句子编码,而XNLI是一个评估基准。跨语言多语种编码器的跨语言转移评估(XTREME)基准是一个用于评估预训练多语种模型的跨语言泛化能力的基准。它涵盖了40种在语言类型上具有多样性的语言(跨越12个语系),并包括了九个任务,这些任务共同要求对不同级别的句法和语义进行推理。XTREME中选择的语言是为了最大程度地提高语言多样性,涵盖现有任务中的语言,并具有可用的训练数据。其中包括许多研究不足的语言,例如南印度、斯里兰卡和新加坡的德拉维大语族泰米尔语,主要在南印度使用的泰卢固语和马拉雅拉姆语,以及非洲的尼日尔-刚果语族斯瓦西里语和约鲁巴语。
'验证集'的示例如下所示。
MLQA.ar.de'验证集'的示例如下所示。
MLQA.ar.en'验证集'的示例如下所示。
MLQA.ar.es'验证集'的示例如下所示。
MLQA.ar.hi'验证集'的示例如下所示。
所有拆分中的数据字段是相同的。
MLQA.ar.ar| name | validation | test |
|---|---|---|
| MLQA.ar.ar | 517 | 5335 |
| MLQA.ar.de | 207 | 1649 |
| MLQA.ar.en | 517 | 5335 |
| MLQA.ar.es | 161 | 1978 |
| MLQA.ar.hi | 186 | 1831 |
@InProceedings{conneau2018xnli,
author = {Conneau, Alexis
and Rinott, Ruty
and Lample, Guillaume
and Williams, Adina
and Bowman, Samuel R.
and Schwenk, Holger
and Stoyanov, Veselin},
title = {XNLI: Evaluating Cross-lingual Sentence Representations},
booktitle = {Proceedings of the 2018 Conference on Empirical Methods
in Natural Language Processing},
year = {2018},
publisher = {Association for Computational Linguistics},
location = {Brussels, Belgium},
}
@article{hu2020xtreme,
author = {Junjie Hu and Sebastian Ruder and Aditya Siddhant and Graham Neubig and Orhan Firat and Melvin Johnson},
title = {XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization},
journal = {CoRR},
volume = {abs/2003.11080},
year = {2020},
archivePrefix = {arXiv},
eprint = {2003.11080}
}
感谢 @thomwolf , @jplu , @lewtun , @lvwerra , @lhoestq , @patrickvonplaten , @mariamabarham 添加此数据集。