HebEMO - 现代希伯来语情感识别模型

HebEMO 是一个能够从现代希伯来语的用户生成内容（UGC）中检测极性并提取情感的工具，它是在我们收集和标注的独特 Covid-19 相关数据集上进行训练的。

对于极性分类，HebEMO 的加权平均 F1 分数达到了 0.96 的高性能。情感检测的 F1 分数在 0.78-0.97 之间，只有“惊讶（surprise）”这一情感无法被模型捕捉（F1 = 0.41）。与其他语言相比，这些结果优于最佳报告性能，甚至包括英语。

情感 UGC 数据描述

我们的 UGC 数据包括从 2020 年 1 月至 2020 年 8 月收集的来自三个以色列主要新闻网站的新闻文章评论。数据总大小约为 150 MB，包含超过 700 万个单词和 35 万个句子。我们通过众包成员对约 2000 个句子（每个句子 3-10 个标注者）进行了整体情感（极性）和 eight emotions ：愤怒、厌恶、期待、恐惧、喜悦、悲伤、惊讶和信任的标注。每种情感出现在句子中的百分比在下表中给出。

anger	disgust	expectation	fear	happy	sadness	surprise	trust	sentiment
ratio	0.78	0.83	0.58	0.45	0.12	0.59	0.17	0.11	0.25

性能

情感识别

emotion	f1-score	precision	recall
anger	0.96	0.99	0.93
disgust	0.97	0.98	0.96
anticipation	0.82	0.80	0.87
fear	0.79	0.88	0.72
joy	0.90	0.97	0.84
sadness	0.90	0.86	0.94
surprise	0.40	0.44	0.37
trust	0.83	0.86	0.80

以上指标为正类（即情感在文本中得到体现）。

情绪（极性）分析

precision	recall	f1-score
neutral	0.83	0.56	0.67
positive	0.96	0.92	0.94
negative	0.97	0.99	0.98
accuracy	0.97
macro avg	0.92	0.82	0.86
weighted avg	0.96	0.97	0.96

情绪（极性）分析模型也可在 AWS 上获得！有关更多信息，请访问 AWS' git 。

如何使用

情感识别模型

在线模型可在 huggingface spaces 或作为 colab notebook 找到。

# !pip install pyplutchik==0.0.7
# !pip install transformers==4.14.1

!git clone https://github.com/avichaychriqui/HeBERT.git
from HeBERT.src.HebEMO import *
HebEMO_model = HebEMO()

HebEMO_model.hebemo(input_path = 'data/text_example.txt')
# return analyzed pandas.DataFrame  

hebEMO_df = HebEMO_model.hebemo(text='החיים יפים ומאושרים', plot=True)

用于情感分类模型（仅限极性）：

from transformers import AutoTokenizer, AutoModel, pipeline

tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")

# how to use?
sentiment_analysis = pipeline(
    "sentiment-analysis",
    model="avichr/heBERT_sentiment_analysis",
    tokenizer="avichr/heBERT_sentiment_analysis",
    return_all_scores = True
)

sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')	
>>>  [[{'label': 'neutral', 'score': 0.9978172183036804},
>>>  {'label': 'positive', 'score': 0.0014792329166084528},
>>>  {'label': 'negative', 'score': 0.0007035882445052266}]]

sentiment_analysis('קפה זה טעים')
>>>  [[{'label': 'neutral', 'score': 0.00047328314394690096},
>>>  {'label': 'possitive', 'score': 0.9994067549705505},
>>>  {'label': 'negetive', 'score': 0.00011996887042187154}]]

sentiment_analysis('אני לא אוהב את העולם')
>>>  [[{'label': 'neutral', 'score': 9.214012970915064e-05}, 
>>>  {'label': 'possitive', 'score': 8.876807987689972e-05}, 
>>>  {'label': 'negetive', 'score': 0.9998190999031067}]]

联系我们

Avichay Chriqui Inbal yahav Coller Semitic Languages AI Lab 谢谢, תודה, شكرا

如果您使用了该模型，请如下引用：

Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: 一种希伯来语 BERT 模型和极性分析与情感识别工具。INFORMS Journal on Data Science, 即将发表。

@article{chriqui2021hebert,
  title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
  author={Chriqui, Avihay and Yahav, Inbal},
  journal={INFORMS Journal on Data Science},
  year={2022}
}

作者:

avi chr

数据集大小:

418.03 MB