数据集:
cjvt/sentinews
SentiNews 是一个斯洛文尼亚情感分类数据集,由 2 到 6 个标注者手动注释的新闻文章组成。它分为三个层次进行注释:
情感分类,三个类别(消极,中性,积极)。
斯洛文尼亚语。
句子级别配置的示例实例:
{
'nid': 2,
'content': 'Vilo Prešeren je na dražbi ministrstva za obrambo kupilo nepremičninsko podjetje Condor Real s sedežem v Lescah.',
'sentiment': 'neutral',
'pid': 1,
'sid': 1
}
所有三个配置的数据字段都相似,唯一的区别在于 ID。
Jože Bučar,Martin Žnidaršič,Janez Povh。
CC BY-SA 4.0
@article{buvcar2018annotated,
title={Annotated news corpora and a lexicon for sentiment analysis in Slovene},
author={Bu{\v{c}}ar, Jo{\v{z}}e and {\v{Z}}nidar{\v{s}}i{\v{c}}, Martin and Povh, Janez},
journal={Language Resources and Evaluation},
volume={52},
number={3},
pages={895--919},
year={2018},
publisher={Springer}
}
感谢 @matejklemen 添加了该数据集。