英文

PAWS: 单词乱序的释义对手数据集

数据集概述

PAWS: 单词乱序的释义对手数据集

该数据集包含108,463对人工标注和656k对有噪声标注的句子对,重点在于模拟结构、上下文和词序信息对释义识别问题的重要性。该数据集有两个子集,一个基于维基百科,另一个基于Quora问题对 (QQP) 数据集。

更多详细信息请参见附带的论文:PAWS: 单词乱序的释义对手 ( https://arxiv.org/abs/1904.01130 )

由于QQP的许可问题,无法提供PAWS-QQP数据集。可以通过下载原始数据并运行我们的脚本来重建该数据集,并附加标签。

支持的任务和排行榜

【需要更多信息】

语言

数据集中的文本为英文。

数据集结构

数据实例

以下是数据集中的两个示例:

Sentence 1 Sentence 2 Label
(1) Although interchangeable, the body pieces on the 2 cars are not similar. Although similar, the body parts are not interchangeable on the 2 cars. 0
(2) Katz was born in Sweden in 1947 and moved to New York City at the age of 1. Katz was born in 1947 in Sweden and moved to New York at the age of one. 1

第一对具有不同的语义含义,而第二对是释义。使用现有数据集训练的最先进模型在PAWS上表现不佳(