数据集:
juletxara/xnli_mt
语言:
XNLI 是 MNLI 的一个子集,其中包含了几千个示例,已经翻译成了 14 种不同的语言(部分资源较低)。与 MNLI 一样,目标是预测文本蕴含关系(句子 A 是否意味着/与句子 B 矛盾/两者都不相关),这是一个分类任务(给定两个句子,预测其中一个标签)。
'train' 的一个示例如下所示。
This example was too long and was cropped:
{
"hypothesis": "{\"language\": [\"ar\", \"bg\", \"de\", \"el\", \"en\", \"es\", \"fr\", \"hi\", \"ru\", \"sw\", \"th\", \"tr\", \"ur\", \"vi\", \"zh\"], \"translation\": [\"احد اع...",
"label": 0,
"premise": "{\"ar\": \"واحدة من رقابنا ستقوم بتنفيذ تعليماتك كلها بكل دقة\", \"bg\": \"един от нашите номера ще ви даде инструкции .\", \"de\": \"Eine ..."
}
ar 'validation' 的一个示例如下所示。
{
"hypothesis": "اتصل بأمه حالما أوصلته حافلة المدرسية.",
"label": 1,
"premise": "وقال، ماما، لقد عدت للمنزل."
}
bg 'train' 的一个示例如下所示。
This example was too long and was cropped:
{
"hypothesis": "\"губиш нещата на следното ниво , ако хората си припомнят .\"...",
"label": 0,
"premise": "\"по време на сезона и предполагам , че на твоето ниво ще ги загубиш на следващото ниво , ако те решат да си припомнят отбора на ..."
}
de 'train' 的一个示例如下所示。
This example was too long and was cropped:
{
"hypothesis": "Man verliert die Dinge auf die folgende Ebene , wenn sich die Leute erinnern .",
"label": 0,
"premise": "\"Du weißt , während der Saison und ich schätze , auf deiner Ebene verlierst du sie auf die nächste Ebene , wenn sie sich entschl..."
}
el 'validation' 的一个示例如下所示。
This example was too long and was cropped:
{
"hypothesis": "\"Τηλεφώνησε στη μαμά του μόλις το σχολικό λεωφορείο τον άφησε.\"...",
"label": 1,
"premise": "Και είπε, Μαμά, έφτασα στο σπίτι."
}
所有拆分的数据字段相同。
all_languages| name | train | validation | test |
|---|---|---|---|
| all_languages | 392702 | 2490 | 5010 |
| ar | 392702 | 2490 | 5010 |
| bg | 392702 | 2490 | 5010 |
| de | 392702 | 2490 | 5010 |
| el | 392702 | 2490 | 5010 |
@InProceedings{conneau2018xnli,
author = {Conneau, Alexis
and Rinott, Ruty
and Lample, Guillaume
and Williams, Adina
and Bowman, Samuel R.
and Schwenk, Holger
and Stoyanov, Veselin},
title = {XNLI: Evaluating Cross-lingual Sentence Representations},
booktitle = {Proceedings of the 2018 Conference on Empirical Methods
in Natural Language Processing},
year = {2018},
publisher = {Association for Computational Linguistics},
location = {Brussels, Belgium},
}
感谢 @lewtun , @mariamabarham , @thomwolf , @lhoestq , @patrickvonplaten 添加了这个数据集。