模型:
HooshvareLab/bert-fa-base-uncased-clf-persiannews
用于波斯语理解的基于Transformer的模型
我们在新的波斯语语料库上重新构建了词汇表,并对ParsBERT v1.1进行了微调,以便为在其他领域使用ParsBERT提供一些功能!有关以前和当前模型的最新信息,请关注 ParsBERT repo。
该任务的目标是以监督方式对现有数据集DigiMag和波斯新闻中的文本进行标注。
这是一个从不同在线新闻机构网站上抓取的各种新闻文章数据集。共有16,438篇文章,分为八个不同的类别。
| Label | # |
|---|---|
| Social | 2170 |
| Economic | 1564 |
| International | 1975 |
| Political | 2269 |
| Science Technology | 2436 |
| Cultural Art | 2558 |
| Sport | 1381 |
| Medical | 2085 |
下载 您可以从 here 下载数据集
下表总结了ParsBERT与其他模型和架构相比获得的F1分数。
| Dataset | ParsBERT v2 | ParsBERT v1 | mBERT |
|---|---|---|---|
| Persian News | 97.44* | 97.19 | 95.79 |
| Task | Notebook |
|---|---|
| Text Classification | 1233321
请在出版物中如下引用:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
在 ParsBERT Issues repo上发布Github问题。