模型:
Davlan/xlm-roberta-base-ner-hrl
语言:
xlm-roberta-base-ner-hrl是基于精调的XLM-RoBERTa基础模型的用于10种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文)的命名实体识别模型。它已经经过训练,可以识别三种类型的实体:位置(LOC)、组织(ORG)和人物(PER)。具体而言,该模型是基于xlm-roberta-base模型的,在10种高资源语言的聚合数据上进行了精调。
您可以使用Transformers库中的pipeline进行NER。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-base-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-base-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)
限制和偏差 该模型受其从特定时间段的实体注释新闻文章训练数据集的限制。这对于不同领域中的所有用例可能不具有很好的泛化能力。
10种语言的训练数据来自:
| Language | Dataset |
|---|---|
| Arabic | 1231321 |
| German | 1232321 |
| English | 1232321 |
| Spanish | 1234321 |
| French | 1235321 |
| Italian | 1236321 |
| Latvian | 1237321 |
| Dutch | 1234321 |
| Portuguese | 1239321 |
| Chinese | 12310321 |
训练数据集区分实体的开始和连续部分,因此如果连续的实体属于同一类型,模型可以输出第二个实体的开始位置。与数据集一样,每个标记将被分类为以下类别之一:
| Abbreviation | Description |
|---|---|
| O | Outside of a named entity |
| B-PER | Beginning of a person’s name right after another person’s name |
| I-PER | Person’s name |
| B-ORG | Beginning of an organisation right after another organisation |
| I-ORG | Organisation |
| B-LOC | Beginning of a location right after another location |
| I-LOC | Location |
该模型在NVIDIA V100 GPU上使用HuggingFace代码推荐的超参数进行训练。