模型:
m3hrdadfi/albert-fa-base-v2
一个用于波斯语的自监督学习语言表示的轻量BERT
可以将其称为小贝尔特
ALBERT-Persian在大量公共语料库( Persian Wikidumps , MirasText )和其他六个手动获取的文本数据进行了训练,这些数据来自各种类型的网站( BigBang Page 科学, Chetor 生活方式, Eligasht 行程, Digikala 数字杂志, Ted Talks 一般对话,图书小说,故事书,从古到现代的短篇小说等)
请关注 ALBERT-Persian 存储库以获取有关以前和当前模型的最新信息。
您可以使用原始模型进行掩码语言建模或下一个句子预测,但它的主要目的是在下游任务上进行微调。请参阅 model hub ,寻找您感兴趣的任务上进行微调的版本。
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['▁ما', '▁در', '▁هوش', 'واره', '▁معتقد', 'یم', '▁با', '▁انتقال', '▁صحیح', '▁دانش', '▁و', '▁اگاه', 'ی', '،', '▁همه', '▁افراد', '▁می', '▁توانند', '▁از', '▁ابزارهای', '▁هوشمند', '▁استفاده', '▁کنند', '.', '▁شعار', '▁ما', '▁هوش', '▁مصنوعی', '▁برای', '▁همه', '▁است', '.']
Pytorch from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
ALBERT-Persian是波斯语ALBERT的首次尝试。该模型是基于Google的ALBERT BASE版本2.0训练的,使用了多种写作风格,包括多个主题(例如科学,小说,新闻),共有超过3.9M个文件,73M个句子和1.3B个单词,就像我们在 ParsBERT 中所做的那样。
训练过程中的目标如下(140K步之后)。
***** Eval results ***** global_step = 140000 loss = 2.0080082 masked_lm_accuracy = 0.6141017 masked_lm_loss = 1.9963315 sentence_order_accuracy = 0.985 sentence_order_loss = 0.06908702
以下表格总结了与其他模型和架构相比,ALBERT-Persian获得的F1得分。
| Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT | DeepSentiPers |
|---|---|---|---|---|
| Digikala User Comments | 81.12 | 81.74 | 80.74 | - |
| SnappFood User Comments | 85.79 | 88.12 | 87.87 | - |
| SentiPers (Multi Class) | 66.12 | 71.11 | - | 69.33 |
| SentiPers (Binary Class) | 91.09 | 92.13 | - | 91.98 |
| Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT |
|---|---|---|---|
| Digikala Magazine | 92.33 | 93.59 | 90.72 |
| Persian News | 97.01 | 97.19 | 95.79 |
| Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT | MorphoBERT | Beheshti-NER | LSTM-CRF | Rule-Based CRF | BiLSTM-CRF |
|---|---|---|---|---|---|---|---|---|
| PEYMA | 88.99 | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - |
| ARMAN | 97.43 | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
请按照以下方式在出版物中引用:
@misc{ALBERT-Persian,
author = {Mehrdad Farahani},
title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
year = {2020},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
在 ALBERT-Persian 存储库上发布Github问题。