英文

PAWS-X:用于释义识别的跨语言对抗数据集 数据集卡片

数据集摘要

该数据集包含23,659个人工翻译的PAWS评估对和296,406个机器翻译的训练对,涵盖了六种语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对都来自于 PAWS-Wiki 的示例。

更多详细信息,请参阅附带的论文: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification

支持的任务和排行榜

它主要用于英语和其他6种语言(法语、西班牙语、德语、中文、日语和韩语)的释义识别。

语言

该数据集使用英语、法语、西班牙语、德语、中文、日语和韩语。

数据集结构

数据实例

对于英文:

id		    :   1
sentence1	:	In Paris , in October 1560 , he secretly met the English ambassador , Nicolas Throckmorton , asking him for a passport to return to England through Scotland .
sentence2	:	In October 1560 , he secretly met with the English ambassador , Nicolas Throckmorton , in Paris , and asked him for a passport to return to Scotland through England .
label       :   0

对于法语:

id		    :   1
sentence1	:	À Paris, en octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, lui demandant un passeport pour retourner en Angleterre en passant par l'Écosse.
sentence2	:	En octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, à Paris, et lui demanda un passeport pour retourner en Écosse par l'Angleterre.
label       :   0

数据字段

所有文件均为tsv格式,包含四列:

Column Name Data
id An ID that matches the ID of the source pair in PAWS-Wiki
sentence1 The first sentence
sentence2 The second sentence
label Label for each pair

可以通过在PAWS-Wiki中找到对应文件中的ID来获得每个翻译的源文本。

数据拆分

下面是每种语言的示例数量:

Language Train Dev Test
en 49,401 2,000 2,000
fr 49,401 2,000 2,000
es 49,401 2,000 2,000
de 49,401 2,000 2,000
zh 49,401 2,000 2,000
ja 49,401 2,000 2,000
ko 49,401 2,000 2,000

注意:请注意PAWS-X的开发集和测试集都来自于PAWS-Wiki的开发集。因此,同一句子可能会同时出现在开发集和测试集中。然而,我们的数据拆分确保开发集和测试集之间的句子对(句子1 + 句子2)没有重叠。

数据集创建

策划理由

大多数现有的对抗数据生成工作都集中在英语上。例如,PAWS(来自单词混淆的释义对抗)(Zhang等,2019)包含来自维基百科和Quora的具有挑战性的英语释义识别对。他们通过PAWS-X来弥补这个差距,PAWS-X是一个包含23,659个人工翻译的PAWS评估对的新数据集,涵盖了法语、西班牙语、德语、中文、日语和韩语等六种语言。他们提供了三种具有不同能力捕捉非局部上下文和句子结构的模型的基线数值,并使用了不同的多语言训练和评估方法。在P AWS英语和机器翻译数据上微调的多语言BERT(Devlin等,2019)的表现最好,非英语语言的准确率在83.1%到90.8%之间范围,并且平均准确率提高了23%。PAWS-X展示了深度多语言预训练的有效性,同时也为更好地捕捉结构和上下文信息的多语言研究留下了很大的提升空间。

源数据

PAWS(来自单词混淆的释义对抗)

初始数据收集和规范化

该数据集包含23,659个人工翻译的PAWS评估对和296,406个机器翻译的训练对,涵盖了法语、西班牙语、德语、中文、日语和韩语等六种语言。

注释

注释过程

如果适用,请描述注释过程和使用的任何工具,或明确说明。描述所注释的数据量,如果不是全部注释。描述或引用提供给注释人员的注释指南。如果有的话,请提供注释者间的一致性统计数据。描述任何注释验证过程。

注释者是谁?

论文中提到了翻译团队,特别是Mengmeng Niu,他们对注释工作有所帮助。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

列出参与收集数据集的人员及其所属机构。如果已知资金信息,请在此处提供。

许可信息

可以自由使用该数据集,但希望在使用时对Google LLC(“Google”)作为数据源进行确认。数据集按“原样”提供,不提供任何明示或暗示的担保。Google对因使用数据集而产生的任何直接或间接损害不承担任何责任。

引用信息

@InProceedings{pawsx2019emnlp,
  title = {{PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification}},
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

贡献

感谢 @bhavitvyamalik @gowtham1997 添加此数据集。