英文

AmericasNLI 数据集卡片

数据集概述

AmericasNLI 是 XNLI(Conneau et al., 2018)的扩展,它是一个自然语言推理(NLI)数据集,涵盖了15种高资源语言和10种在美洲使用的低资源土著语言:Ashaninka,Aymara,Bribri,Guarani,Nahuatl,Otomi,Quechua,Raramuri,Shipibo-Konibo 和 Wixarika。与MNLI一样,目标是预测文本蕴含关系(句子A是否蕴含/矛盾/无关句子B),这是一个分类任务(给定两个句子,预测其中一个的三个标签之一)。

支持的任务和排行榜

[需要更多信息]

语言

  • aym
  • bzd
  • cni
  • gn
  • hch
  • nah
  • oto
  • quy
  • shp
  • tar

数据集结构

数据实例

所有语言的一个测试集示例如下:

{'language': 'aym', 'premise': "Ukhamaxa, janiw ukatuqits lup'kayätti, ukhamarus wali phiñasitayätwa, ukatx jupampiw mayamp aruskipañ qallanttha.", 'hypothesis': 'Janiw mayamp jupampix p
arlxapxti.', 'label': 2}
aym

一个 bzd 测试集示例如下:

{'premise': "Ukhamaxa, janiw ukatuqits lup'kayätti, ukhamarus wali phiñasitayätwa, ukatx jupampiw mayamp aruskipañ qallanttha.", 'hypothesis': 'Janiw mayamp jupampix parlxapxti.', 'label
': 2}
bzd

一个 cni 测试集示例如下:

{'premise': "Bua', kèq ye' kũ e' bikeitsök erë ye' chkénãwã tã ye' ujtémĩne ie' tã páxlĩnẽ.", 'hypothesis': "Kèq ye' ùtẽnẽ ie' tã páxlĩ.", 'label': 2}
cni

一个 gn 测试集示例如下:

{'premise': 'Kameetsa, tee nokenkeshireajeroji, iro kantaincha tee nomateroji aisati nintajaro noñanatajiri iroakera.', 'hypothesis': 'Tee noñatajeriji.', 'label': 2}
gn

一个 hch 测试集示例如下:

{'premise': "Néi, ni napensaikurihína upéva rehe, ajepichaiterei ha añepyrûjey añe'ê hendive.", 'hypothesis': "Nañe'êvéi hendive.", 'label': 2}
hch

一个 nah 测试集示例如下:

{'premise': 'mu hekwa.', 'hypothesis': 'neuka tita xatawe m+k+ mat+a.', 'label': 2}
nah

一个 oto 测试集示例如下:

{'premise': 'Cualtitoc, na axnimoihliaya ino, nicualaniztoya queh naha nicamohuihqui', 'hypothesis': 'Ayoc nicamohuihtoc', 'label': 2}
oto

一个 quy 测试集示例如下:

{'premise': 'mi-ga, nin mibⴘy mbô̮nitho ane guenu, guedi mibⴘy nho ⴘnmⴘy xi di mⴘdi o ñana nen nⴘua manaigui', 'hypothesis': 'hin din bi pengui nen nⴘa', 'label': 2}
quy

一个 shp 测试集示例如下:

.', 'label': 2}
shp

一个 tar 测试集示例如下:

{'premise': 'Jakon riki, ja shinanamara ea ike, ikaxbi kikin frustradara ea ike jakopira ea jabe yoyo iribake.', 'hypothesis': 'Eara jabe yoyo iribiama iki.', 'label': 2}
tar

一个测试集示例如下:

{'premise': 'Ga’lá ju, ke tási newalayé nejé echi kítira, we ne majáli, a’lí ko uchécho ne yua ku ra’íchaki.', 'hypothesis': 'Tási ne uchecho yua ra’ícha échi rejói.', 'label': 2}

数据字段

all_languages
- language: a multilingual string variable, with languages including ar, bg, de, el, en.
- premise: a multilingual string variable, with languages including ar, bg, de, el, en.
- hypothesis: a multilingual string variable, with possible languages including ar, bg, de, el, en.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
aym
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
bzd
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
cni
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
hch
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
nah
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
oto
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
quy
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
shp
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
tar
- premise: a string feature.
- hypothesis: a string feature.
- label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).

数据拆分

Language ISO Family Dev Test
all_languages -- -- 6457 7486
Aymara aym Aymaran 743 750
Ashaninka cni Arawak 658 750
Bribri bzd Chibchan 743 750
Guarani gn Tupi-Guarani 743 750
Nahuatl nah Uto-Aztecan 376 738
Otomi oto Oto-Manguean 222 748
Quechua quy Quechuan 743 750
Raramuri tar Uto-Aztecan 743 750
Shipibo-Konibo shp Panoan 743 750
Wixarika hch Uto-Aztecan 743 750

数据集创建

策划理由

[需要更多信息]

数据源

作者从 XNLI 的西班牙语子集翻译而来。

AmericasNLI 是 XNLI(Conneau et al., 2018)子集的翻译。由于西班牙语与目标语言之间的翻译者更容易找到,我们选择从西班牙语版本进行翻译。

根据 original paper 第3.1段的描述。

初始数据收集和规范化

[需要更多信息]

语言源的生产者是谁?

[需要更多信息]

注释

注释过程

该数据集包含来自西班牙语XNLI的专家翻译。

此外,一些翻译者报告称,经常使用混合代码来描述某些主题,并且虽然许多没有目标语言中的确切对应词的单词通过翻译或解释进行处理,但其他单词保留为西班牙语。为了减少翻译示例中的西班牙语词汇量,我们选择从我们判断为相对容易翻译成目标语言的流派中选择句子:“面对面”,“信件”和“电话”。

根据 original paper 第3.1段的描述。

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{DBLP:journals/corr/abs-2104-08726,
  author    = {Abteen Ebrahimi and
               Manuel Mager and
               Arturo Oncevay and
               Vishrav Chaudhary and
               Luis Chiruzzo and
               Angela Fan and
               John Ortega and
               Ricardo Ramos and
               Annette Rios and
               Ivan Vladimir and
               Gustavo A. Gim{\'{e}}nez{-}Lugo and
               Elisabeth Mager and
               Graham Neubig and
               Alexis Palmer and
               Rolando A. Coto Solano and
               Ngoc Thang Vu and
               Katharina Kann},
  title     = {AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
               Pretrained Multilingual Models in Truly Low-resource Languages},
  journal   = {CoRR},
  volume    = {abs/2104.08726},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.08726},
  eprinttype = {arXiv},
  eprint    = {2104.08726},
  timestamp = {Mon, 26 Apr 2021 17:25:10 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-08726.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献者

感谢 @fdschmidt93 添加此数据集。