这个Turkish Sentiment Analysis模型是基于预训练的 BERTurk model 128k uncased 进行微调的结果,使用了 BounTi dataset 。
from transformers import pipeline
bounti = pipeline("sentiment-analysis",model="akoksal/bounti")
print(bounti("Bu yemeği pek sevmedim"))
>> [{'label': 'negative', 'score': 0.8012508153915405}]
经过BERTurk微调的模型得分如下:
| Accuracy | Precision | Recall | F1 | |
|---|---|---|---|---|
| Validation | 0.745 | 0.706 | 0.730 | 0.715 |
| Test | 0.723 | 0.692 | 0.729 | 0.701 |
你可以在 our Github repo 找到包含训练、验证和测试数据集的数据。
由于Twitter版权问题,我们无法公开完整的推文文本。我们分享了推文ID,完整的文本可以通过官方的Twitter API下载。
| Training | Validation | Test | |
|---|---|---|---|
| Positive | 1691 | 188 | 469 |
| Neutral | 3034 | 338 | 843 |
| Negative | 1008 | 113 | 280 |
| Total | 5733 | 639 | 1592 |
如果您使用了我们的工作,请引用以下论文:
@INPROCEEDINGS{BounTi,
author={Köksal, Abdullatif and Özgür, Arzucan},
booktitle={2021 29th Signal Processing and Communications Applications Conference (SIU)},
title={Twitter Dataset and Evaluation of Transformers for Turkish Sentiment Analysis},
year={2021},
volume={},
number={}
}