模型:
HooshvareLab/bert-base-parsbert-ner-uncased
ParsBERT是基于Google的BERT架构的单语言模型,具有与BERT-Base相同的配置。
ParsBERT提供的论文: arXiv:2005.12515
所有模型(下游任务)都是不区分大小写的,并使用整个单词屏蔽进行训练(即将推出,敬请期待)
此任务旨在提取文本中的命名实体,例如名称,并用适当的NER类别进行标记,例如地点,组织等。用于此任务的数据集包含用IOB格式标记的句子。在此格式中,不是实体的标记为“O”,“B”标记表示对象的第一个词,“I”标记表示同一实体的其余术语。 “B”和“I”标记后跟连字符(或下划线),后跟实体类别。因此,NER任务是一个多类别标记分类问题,可在输入原始文本后标记标记。波斯语NER使用了两个主要数据集,ARMAN和PEYMA。在ParsBERT中,我们为这两个数据集以及两个数据集的组合准备了ner。
PEYMA数据集包括7,145个句子,共302,530个标记,其中41,148个标记为七个不同的类别。
| Label | # |
|---|---|
| Organization | 16964 |
| Money | 2037 |
| Location | 8782 |
| Date | 4259 |
| Time | 732 |
| Person | 7675 |
| Percent | 699 |
下载 可以从 here 下载数据集
ARMAN数据集包含7,682个句子,250,015个句子中的标记属于六个不同的类别。
| Label | # |
|---|---|
| Organization | 30108 |
| Location | 12924 |
| Facility | 4458 |
| Event | 7557 |
| Product | 4389 |
| Person | 15645 |
下载 可以从 here 下载数据集
下表总结了ParsBERT与其他模型和架构相比获得的F1分数。
| Dataset | ParsBERT | MorphoBERT | Beheshti-NER | LSTM-CRF | Rule-Based CRF | BiLSTM-CRF |
|---|---|---|---|---|---|---|
| ARMAN + PEYMA | 95.13* | - | - | - | - | - |
| PEYMA | 98.79* | - | 90.59 | - | 84.00 | - |
| ARMAN | 93.10* | 89.9 | 84.03 | 86.55 | - | 77.45 |
| Notebook | Description |
|---|---|
| 1234321 | Simple and efficient way to use State-of-the-Art models on downstream tasks through transformers | 1235321
如果您在研究中使用 ParsBERT ,请在您的出版物中引用以下论文:
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
我们在此向 Tensorflow Research Cloud (TFRC) program 提供我们所需的计算资源表示感谢。我们还感谢 Hooshvare 研究小组为我们提供数据集收集和在线资源抓取的便利。
这是我们ParsBERT NER的第一个版本!