模型:
allegro/herbert-klej-cased-v1
HerBERT 是基于BERT的语言模型,使用波兰语语料库进行训练,仅使用MLM目标,对整个单词进行动态掩码。有关更多详细信息,请参阅: KLEJ: Comprehensive Benchmark for Polish Language Understanding 。
HerBERT训练数据集是波兰语言的几个公开可用语料库的组合:
| Corpus | Tokens | Texts |
|---|---|---|
| 1235321 | 6710M | 145M |
| 1236321 | 1084M | 1.1M |
| 1237321 | 260M | 1.5M |
| 1238321 | 41M | 5.5k |
| 1239321 | 18M | 33k |
训练数据集使用 HerBERT Tokenizer 进行子词标记化;这是一种字符级字节对编码,词汇表大小为50k个标记。分词器本身是在 Wolne Lektury 和公开可用的 National Corpus of Polish 子集上进行训练的,使用了 fastBPE 库。
分词器使用XLMTokenizer实现,因此应该以allegro/herbert-klej-cased-tokenizer-v1为加载对象。
| Model | WWM | Cased | Tokenizer | Vocab Size | Batch Size | Train Steps |
|---|---|---|---|---|---|---|
| herbert-klej-cased-v1 | YES | YES | BPE | 50K | 570 | 180k |
HerBERT在 KLEJ 基准测试中进行了评估,这是一个针对波兰语理解的公开可用的九个评估任务的集合。它在平均性能方面表现最好,并在其中三个任务中取得了最佳结果。
| Model | Average | NKJP-NER | CDSC-E | CDSC-R | CBD | PolEmo2.0-IN\t | PolEmo2.0-OUT | DYK | PSC | AR\t |
|---|---|---|---|---|---|---|---|---|---|---|
| herbert-klej-cased-v1 | 80.5 | 92.7 | 92.5 | 91.9 | 50.3 | 89.2 | 76.3 | 52.1 | 95.3 | 84.5 |
完整的排行榜可查看 online 。
模型训练和实验是使用 transformers 版本2.0进行的。
示例代码:
from transformers import XLMTokenizer, RobertaModel
tokenizer = XLMTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
model = RobertaModel.from_pretrained("allegro/herbert-klej-cased-v1")
encoded_input = tokenizer.encode("Kto ma lepszą sztukę, ma lepszy rząd – to jasne.", return_tensors='pt')
outputs = model(encoded_input)
也可以使用AutoTokenizer和AutoModel加载HerBERT:
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
model = AutoModel.from_pretrained("allegro/herbert-klej-cased-v1")
CC BY-SA 4.0
如果您使用了这个模型,请引用以下论文:
@inproceedings{rybak-etal-2020-klej,
title = "{KLEJ}: Comprehensive Benchmark for {P}olish Language Understanding",
author = "Rybak, Piotr and
Mroczkowski, Robert and
Tracz, Janusz and
Gawlik, Ireneusz",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.111",
doi = "10.18653/v1/2020.acl-main.111",
pages = "1191--1201",
}
该模型由 Allegro 机器学习研究团队进行训练。
您可以通过 klejbenchmark@allegro.pl 联系我们。