数据集:
assin2
任务:
语言:
计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
ASSIN 2语料库由相对简单的句子组成。遵循SemEval 2014任务1的流程。训练集和验证集分别由6,500个和500个巴西葡萄牙语的句子对组成,标注了蕴涵关系和语义相似度。语义相似度值范围为1到5,文本蕴涵类别为蕴涵或无。测试数据由大约3,000个带有相同注释的句子对组成。所有数据均由人工注释。
[需要更多信息]
支持的语言是葡萄牙语。
ASSIN 2数据集的一个示例如下:
{
"entailment_judgment": 1,
"hypothesis": "Uma criança está segurando uma pistola de água",
"premise": "Uma criança risonha está segurando uma pistola de água e sendo espirrada com água",
"relatedness_score": 4.5,
"sentence_pair_id": 1
}
数据分为训练集、验证集和测试集。拆分大小如下:
| Train | Val | Test |
|---|---|---|
| 6500 | 500 | 2448 |
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{real2020assin,
title={The assin 2 shared task: a quick overview},
author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo},
booktitle={International Conference on Computational Processing of the Portuguese Language},
pages={406--412},
year={2020},
organization={Springer}
}
感谢 @jonatasgrosman 添加了这个数据集。