ParsBERT (v2.0)

用于波斯语理解的基于Transformer的模型

我们在新的波斯语语料库上重新构建了词汇表，并对ParsBERT v1.1进行了微调，以便为在其他领域使用ParsBERT提供一些功能！有关以前和当前模型的最新信息，请关注 ParsBERT repo。

波斯文本分类[DigiMag，波斯新闻]

该任务的目标是以监督方式对现有数据集DigiMag和波斯新闻中的文本进行标注。

波斯新闻

这是一个从不同在线新闻机构网站上抓取的各种新闻文章数据集。共有16,438篇文章，分为八个不同的类别。

经济

国际

政治

科技

文化艺术

体育

医疗

Label	#
Social	2170
Economic	1564
International	1975
Political	2269
Science Technology	2436
Cultural Art	2558
Sport	1381
Medical	2085

下载您可以从 here 下载数据集

结果

下表总结了ParsBERT与其他模型和架构相比获得的F1分数。

Dataset	ParsBERT v2	ParsBERT v1	mBERT
Persian News	97.44*	97.19	95.79

如何使用:hugs:

1233321

Task	Notebook
Text Classification

BibTeX引用和引文信息

请在出版物中如下引用：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

有问题?

在 ParsBERT Issues repo上发布Github问题。

作者:

Hooshvare Research Lab

数据集大小:

1.83 GB