数据集:

assin2

英文

ASSIN 2数据集数据卡片

数据集摘要

ASSIN 2语料库由相对简单的句子组成。遵循SemEval 2014任务1的流程。训练集和验证集分别由6,500个和500个巴西葡萄牙语的句子对组成,标注了蕴涵关系和语义相似度。语义相似度值范围为1到5,文本蕴涵类别为蕴涵或无。测试数据由大约3,000个带有相同注释的句子对组成。所有数据均由人工注释。

支持的任务和排行榜

[需要更多信息]

语言

支持的语言是葡萄牙语。

数据集结构

数据实例

ASSIN 2数据集的一个示例如下:

{
  "entailment_judgment": 1,
  "hypothesis": "Uma criança está segurando uma pistola de água",
  "premise": "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água",
  "relatedness_score": 4.5,
  "sentence_pair_id": 1
}

数据字段

  • sentence_pair_id: 一个int64特征。
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • relatedness_score: 一个float32特征。
  • entailment_judgment: 一个分类标签,可能的取值包括NONE、ENTAILMENT。

数据拆分

数据分为训练集、验证集和测试集。拆分大小如下:

Train Val Test
6500 500 2448

数据集创建

策划理由

[需要更多信息]

源数据

采集和规范化的初始数据

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{real2020assin,
  title={The assin 2 shared task: a quick overview},
  author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo},
  booktitle={International Conference on Computational Processing of the Portuguese Language},
  pages={406--412},
  year={2020},
  organization={Springer}
}

贡献

感谢 @jonatasgrosman 添加了这个数据集。