HooshvareLab/bert-base-parsbert-ner-uncased | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

HooshvareLab/bert-base-parsbert-ner-uncased

任务:

标记分类

类库:

PyTorch TensorFlow JAX Transformers

语言:

其他:

bert AutoTrain Compatible

预印本库:

arxiv:2005.12515

许可:

apache-2.0

模型介绍文件清单

英文

ParsBERT：基于Transformer的波斯语语言理解模型

ParsBERT是基于Google的BERT架构的单语言模型，具有与BERT-Base相同的配置。

ParsBERT提供的论文： arXiv:2005.12515

所有模型（下游任务）都是不区分大小写的，并使用整个单词屏蔽进行训练（即将推出，敬请期待）

波斯语命名实体识别[ARMAN，PEYMA，ARMAN+PEYMA]

此任务旨在提取文本中的命名实体，例如名称，并用适当的NER类别进行标记，例如地点，组织等。用于此任务的数据集包含用IOB格式标记的句子。在此格式中，不是实体的标记为“O”，“B”标记表示对象的第一个词，“I”标记表示同一实体的其余术语。 “B”和“I”标记后跟连字符（或下划线），后跟实体类别。因此，NER任务是一个多类别标记分类问题，可在输入原始文本后标记标记。波斯语NER使用了两个主要数据集，ARMAN和PEYMA。在ParsBERT中，我们为这两个数据集以及两个数据集的组合准备了ner。

PEYMA

PEYMA数据集包括7,145个句子，共302,530个标记，其中41,148个标记为七个不同的类别。

组织

货币

地点

日期

时间

人物

百分比

Label	#
Organization	16964
Money	2037
Location	8782
Date	4259
Time	732
Person	7675
Percent	699

下载可以从 here 下载数据集

ARMAN

ARMAN数据集包含7,682个句子，250,015个句子中的标记属于六个不同的类别。

组织

地点

设施

事件

产品

人物

Label	#
Organization	30108
Location	12924
Facility	4458
Event	7557
Product	4389
Person	15645

下载可以从 here 下载数据集

结果

下表总结了ParsBERT与其他模型和架构相比获得的F1分数。

Dataset	ParsBERT	MorphoBERT	Beheshti-NER	LSTM-CRF	Rule-Based CRF	BiLSTM-CRF
ARMAN + PEYMA	95.13*	-	-	-	-	-
PEYMA	98.79*	-	90.59	-	84.00	-
ARMAN	93.10*	89.9	84.03	86.55	-	77.45

如何使用 :hugs:

1235321

Notebook	Description
1234321	Simple and efficient way to use State-of-the-Art models on downstream tasks through transformers

引用

如果您在研究中使用 ParsBERT ，请在您的出版物中引用以下论文：

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

致谢

我们在此向 Tensorflow Research Cloud (TFRC) program 提供我们所需的计算资源表示感谢。我们还感谢 Hooshvare 研究小组为我们提供数据集收集和在线资源抓取的便利。

贡献者

Mehrdad Farahani： Linkedin ， Twitter ， Github
Mohammad Gharachorloo： Linkedin ， Twitter ， Github
Marzieh Farahani： Linkedin ， Twitter ， Github
Mohammad Manthouri： Linkedin ， Twitter ， Github
Hooshvare团队： Official Website ， Linkedin ， Twitter ， Github ， Instagram

特别感谢Sara Tabrizi为我们设计出色的海报。关注她的： Linkedin ， Behance ， Instagram

发布版本

v0.1发布（2019年5月29日）

这是我们ParsBERT NER的第一个版本！

作者:

Hooshvare Research Lab

数据集大小:

1.82 GB