数据集:
assin2
任务:
语言:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
ASSIN 2语料库由相对简单的句子组成。遵循SemEval 2014任务1的流程。训练集和验证集分别由6,500个和500个巴西葡萄牙语的句子对组成,标注了蕴涵关系和语义相似度。语义相似度值范围为1到5,文本蕴涵类别为蕴涵或无。测试数据由大约3,000个带有相同注释的句子对组成。所有数据均由人工注释。
[需要更多信息]
支持的语言是葡萄牙语。
ASSIN 2数据集的一个示例如下:
{
  "entailment_judgment": 1,
  "hypothesis": "Uma criança está segurando uma pistola de água",
  "premise": "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água",
  "relatedness_score": 4.5,
  "sentence_pair_id": 1
}
数据分为训练集、验证集和测试集。拆分大小如下:
| Train | Val | Test | 
|---|---|---|
| 6500 | 500 | 2448 | 
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{real2020assin,
  title={The assin 2 shared task: a quick overview},
  author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo},
  booktitle={International Conference on Computational Processing of the Portuguese Language},
  pages={406--412},
  year={2020},
  organization={Springer}
}
感谢 @jonatasgrosman 添加了这个数据集。