英文

PAWS-X MT 数据集卡片

数据集简介

该数据集包含23,659个人工翻译的PAWS评估对和296,406个机器翻译的训练对,涵盖了六种语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对都来自于 PAWS-Wiki 的示例。

详细信息请参见附带的论文: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification

这是从每种语言的原始数据集机器翻译成英文的版本。

支持的任务和排行榜

该数据集主要用于英文和其他六种语言(法语、西班牙语、德语、中文、日语和韩语)的释义识别。

语言

该数据集包含英文、法语、西班牙语、德语、中文、日语和韩语。

数据集结构

数据实例

对于英文:

id		    :   1
sentence1	:	In Paris , in October 1560 , he secretly met the English ambassador , Nicolas Throckmorton , asking him for a passport to return to England through Scotland .
sentence2	:	In October 1560 , he secretly met with the English ambassador , Nicolas Throckmorton , in Paris , and asked him for a passport to return to Scotland through England .
label       :   0

对于法语:

id		    :   1
sentence1	:	À Paris, en octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, lui demandant un passeport pour retourner en Angleterre en passant par l'Écosse.
sentence2	:	En octobre 1560, il rencontra secrètement l'ambassadeur d'Angleterre, Nicolas Throckmorton, à Paris, et lui demanda un passeport pour retourner en Écosse par l'Angleterre.
label       :   0

数据字段

所有文件都以tsv格式保存,包含四个列:

Column Name Data
id An ID that matches the ID of the source pair in PAWS-Wiki
sentence1 The first sentence
sentence2 The second sentence
label Label for each pair

可以通过在PAWS-Wiki中查找相应文件中的ID来获取每个翻译的原始文本。

数据拆分

各个语言的示例数量如下所示:

Language Train Dev Test
en 49,401 2,000 2,000
fr 49,401 2,000 2,000
es 49,401 2,000 2,000
de 49,401 2,000 2,000
zh 49,401 2,000 2,000
ja 49,401 2,000 2,000
ko 49,401 2,000 2,000

注意:请注意,PAWS-X的开发集和测试集都是从PAWS-Wiki的开发集中获取的。因此,相同的“句子1”可能同时出现在开发集和测试集中。然而,我们的数据集确保开发集和测试集之间没有重复的句子对(“句子1”+“句子2”)。

数据集创建

策划理由

大多数现有的对抗性数据生成工作都集中在英语上。例如,PAWS(单词打乱的释义敌手)(Zhang等,2019)包含来自维基百科和Quora的具有挑战性的英文释义识别对。作者使用PAWS-X弥补了这一差距,PAWS-X是一个由来自六种不同类型语言的23,659个人工翻译的PAWS评估对组成的新数据集,这些语言包括法语、西班牙语、德语、中文、日语和韩语。作者提供了三个模型的基线数据,这些模型能够捕捉非局部上下文和句子结构,并使用不同的多语言训练和评估方法。在PAWS英文数据加上机器翻译数据之后,经过Multilingual BERT(Devlin等,2019)微调得到的模型表现最好,对于非英文语言的准确率在83.1%-90.8%之间,平均准确率提高了23%。PAWS-X展示了深层多语言预训练的有效性,同时也为更好地捕捉结构和上下文信息的多语言研究提供了可持续发展的挑战。

源数据

PAWS(单词打乱的释义敌手)

原始数据收集和归一化

所有翻译对都来自于 PAWS-Wiki 的示例。

源语言的制造者是谁?

该数据集包含23,659个人工翻译的PAWS评估对和296,406个机器翻译的训练对,涵盖了法语、西班牙语、德语、中文、日语和韩语等六种语言。

注释

注释过程

如果适用,请描述注释过程和使用的任何工具,或明确说明。描述已注释的数据量(如果不是全部)。描述或引用提供给标注者的注释指南。如果有的话,提供标注者之间的统计数据。描述任何注释验证过程。

注释者是谁?

论文提到了翻译团队,特别是Mengmeng Niu,在注释方面提供了帮助。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

列出参与收集数据集的人员及其所属机构。如果已知资金信息,请在此处包含。

许可信息

用户可以自由使用数据集,但希望在使用时对Google LLC(“Google”)作为数据源进行确认。该数据集按“原样”提供,不提供任何明示或暗示的保证。Google对由使用数据集引起的任何直接或间接损害概不负责。

引用信息

@InProceedings{pawsx2019emnlp,
  title = {{PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification}},
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

贡献

感谢 @bhavitvyamalik @gowtham1997 添加了该数据集。