数据集:
humicroedit
许可:
源数据集:
original语言创建人:
crowdsourced大小:
10K<n<100K计算机处理:
monolingual语言:
子任务:
text-scoring任务:
这是 SemEval-2020 任务7的任务数据集:评估编辑后新闻标题的幽默程度。
英语
对于子任务-1,即给定原始标题和编辑后标题,预测编辑后标题的平均幽默程度。
{
'id': 1183,
'original': 'Kushner to visit <Mexico/> following latest trump tirades.',
'edit': 'therapist',
'grades': '33332',
'meanGrade': 2.8
}
对于子任务-2,即给定原始标题和两个编辑版本,预测哪个编辑版本更有趣。
{
'id': 1183,
'original1': 'Gene Cernan , Last <Astronaut/> on the Moon , Dies at 82',
'edit1': 'Dancer',
'grades1': '1113',
'meanGrade1': 1.2,
'original2': 'Gene Cernan , Last Astronaut on the Moon , <Dies/> at 82',
'edit2': 'impregnated',
'grades2': '30001',
'meanGrade2': 0.8,
'label': 1
}
对于子任务-1
对于子任务-2
| Sub Task | Train | Dev | Test | Funlines |
|---|---|---|---|---|
| Subtask-1:Regression | 9652 | 2419 | 3024 | 8248 |
| Subtask-2: Funnier headline prediction | 9381 | 2355 | 2960 | 1958 |
[需要更多信息]
通过将其设计成游戏,通过funlines.co网站进行了众包数据收集。玩家在0-4的范围内对标题进行评级。根据他们的编辑和评分给玩家评分,并在游戏的排行榜页面上排名。
资源语言生产者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@article{hossain2019president, title={" President Vows to Cut< Taxes> Hair": Dataset and Analysis of Creative Text Editing for Humorous Headlines}, author={Hossain, Nabil and Krumm, John and Gamon, Michael}, journal={arXiv preprint arXiv:1906.00274}, year={2019} }
感谢 @saradhix 添加了这个数据集。