模型:
Davlan/xlm-roberta-base-finetuned-hausa
语言:ha
xlm-roberta-base-finetuned-hausa 是通过对 Hausa 语言文本在 xlm-roberta-base 模型上进行微调得到的 Hausa RoBERTa 模型。它在文本分类和命名实体识别数据集上提供了比 XLM-RoBERTa 更好的性能。
具体而言,该模型是在 Hausa 语料库上对 xlm-roberta-base 模型进行微调得到的。
如何使用:可以使用 Transformers pipeline 对这个模型进行掩码标记预测。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='Davlan/xlm-roberta-base-finetuned-hausa')
>>> unmasker("Shugaban <mask> Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci")
[{'sequence': '<s> Shugaban kasa Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>',
'score': 0.8104371428489685,
'token': 29762,
'token_str': '▁kasa'},
{'sequence': '<s> Shugaban Najeriya Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.17371904850006104,
'token': 49173,
'token_str': '▁Najeriya'},
{'sequence': '<s> Shugaban kasar Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.006917025428265333,
'token': 21221,
'token_str': '▁kasar'},
{'sequence': '<s> Shugaban Nigeria Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.005785710643976927,
'token': 72620,
'token_str': '▁Nigeria'},
{'sequence': '<s> Shugaban Kasar Muhammadu Buhari ya amince da shawarar da ma’aikatar sufuri karkashin jagoranci</s>', 'score': 0.0010596115607768297,
'token': 170255,
'token_str': '▁Kasar'}]
限制和偏见 该模型受其训练数据集的限制,该数据集包含特定时间范围内的实体注释新闻文章。这可能无法在不同领域的所有用例中很好地推广。
该模型是在 Hausa CC-100 上进行微调的。
该模型是在一台 NVIDIA V100 GPU 上进行训练的。
| Dataset | XLM-R F1 | ha_roberta F1 |
|---|---|---|
| 1232321 | 86.10 | 91.47 |
| 1233321 |
作者:David Adelani