Hugging Face的标志

语言：

阿拉伯语
德语
英语
西班牙语
法语
意大利语
拉脱维亚语
荷兰语
葡萄牙语
中文
多语种

xlm-roberta-base-ner-hrl

模型描述

xlm-roberta-base-ner-hrl是基于精调的XLM-RoBERTa基础模型的用于10种高资源语言（阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文）的命名实体识别模型。它已经经过训练，可以识别三种类型的实体：位置（LOC）、组织（ORG）和人物（PER）。具体而言，该模型是基于xlm-roberta-base模型的，在10种高资源语言的聚合数据上进行了精调。

使用方法和限制

如何使用

您可以使用Transformers库中的pipeline进行NER。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-base-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-base-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

限制和偏差

该模型受其从特定时间段的实体注释新闻文章训练数据集的限制。这对于不同领域中的所有用例可能不具有很好的泛化能力。

训练数据

10种语言的训练数据来自：

Language	Dataset
Arabic	1231321
German	1232321
English	1232321
Spanish	1234321
French	1235321
Italian	1236321
Latvian	1237321
Dutch	1234321
Portuguese	1239321
Chinese	12310321

训练数据集区分实体的开始和连续部分，因此如果连续的实体属于同一类型，模型可以输出第二个实体的开始位置。与数据集一样，每个标记将被分类为以下类别之一：

Abbreviation	Description
O	Outside of a named entity
B-PER	Beginning of a person’s name right after another person’s name
I-PER	Person’s name
B-ORG	Beginning of an organisation right after another organisation
I-ORG	Organisation
B-LOC	Beginning of a location right after another location
I-LOC	Location

训练过程

该模型在NVIDIA V100 GPU上使用HuggingFace代码推荐的超参数进行训练。

作者:

David Adelani

数据集大小:

2.07 GB