ParsBERT（v2.0）

波斯语理解的基于Transformer的模型

我们通过对新的波斯语语料库进行词汇重构和微调ParsBERT v1.1，以便为在其他领域使用ParsBERT提供一些功能！请在 ParsBERT 存储库中关注有关先前和当前模型的最新信息。

波斯情感[DigiKala，SnappFood，DeepSentiPers]

其目的是基于情感倾向对文本（如评论）进行分类。我们为此任务测试了三个众所周知的数据集：Digikala用户评论，SnappFood用户评论和DeepSentiPers的二进制形式和多形式。

DeepSentiPers

它是SentiPers的平衡和增强版本，包含12138条有关数字产品的用户意见，标有五个不同的类别；两个积极类别（即快乐和高兴），两个消极类别（即愤怒和生气）以及一个中立类别。因此，该数据集可用于多类和二进制分类。在二进制分类的情况下，从数据集中删除了中立类别及其对应的句子。

二进制：

负面（愤怒+生气）

积极（快乐+高兴）

多类：

愤怒

生气

中立

快乐

高兴

Label	#
Furious	236
Angry	1357
Neutral	2874
Happy	2848
Delighted	2516

下载您可以从以下网址下载数据集：

结果

下表总结了ParsBERT与其他模型和架构相比获得的F1分数。

Dataset	ParsBERT v2	ParsBERT v1	mBERT	DeepSentiPers
SentiPers (Multi Class)	71.31*	71.11	-	69.33
SentiPers (Binary Class)	92.42*	92.13	-	91.98

如何使用:hugs:

1234321

Task	Notebook
Sentiment Analysis

BibTeX条目和引用信息

请按照以下方式在出版物中引用：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

问题？

在 ParsBERT Issues 存储库上发布Github问题。

作者:

Hooshvare Research Lab

数据集大小:

1.82 GB