在 LinkedIn 上与我联系
这个数据集用 28 种情绪标记了58000个 Reddit 的评论
RoBERTa 基于 BERT 的语言遮蔽策略,并修改了 BERT 的关键超参数,包括删除了 BERT 的下一句预训练目标,并使用更大的小批量和学习率进行训练。与 BERT 相比,RoBERTa 在更多的数据上进行了十倍数量级的训练,并进行了更长时间的训练。这使得 RoBERTa 的表示能够比 BERT 更好地泛化到下游任务中。
| Parameter | |
|---|---|
| Learning rate | 5e-5 |
| Epochs | 10 |
| Max Seq Length | 50 |
| Batch size | 16 |
| Warmup Proportion | 0.1 |
| Epsilon | 1e-8 |
Macro F1 最佳结果 - 49.30%
from transformers import RobertaTokenizerFast, TFRobertaForSequenceClassification, pipeline
tokenizer = RobertaTokenizerFast.from_pretrained("arpanghoshal/EmoRoBERTa")
model = TFRobertaForSequenceClassification.from_pretrained("arpanghoshal/EmoRoBERTa")
emotion = pipeline('sentiment-analysis',
model='arpanghoshal/EmoRoBERTa')
emotion_labels = emotion("Thanks for using it.")
print(emotion_labels)
输出
[{'label': 'gratitude', 'score': 0.9964383244514465}]