HerBERT

HerBERT 是基于BERT的语言模型，使用波兰语语料库进行训练，仅使用MLM目标，对整个单词进行动态掩码。有关更多详细信息，请参阅： KLEJ: Comprehensive Benchmark for Polish Language Understanding 。

数据集

HerBERT训练数据集是波兰语言的几个公开可用语料库的组合：

Corpus	Tokens	Texts
1235321	6710M	145M
1236321	1084M	1.1M
1237321	260M	1.5M
1238321	41M	5.5k
1239321	18M	33k

分词器

训练数据集使用 HerBERT Tokenizer 进行子词标记化；这是一种字符级字节对编码，词汇表大小为50k个标记。分词器本身是在 Wolne Lektury 和公开可用的 National Corpus of Polish 子集上进行训练的，使用了 fastBPE 库。

分词器使用XLMTokenizer实现，因此应该以allegro/herbert-klej-cased-tokenizer-v1为加载对象。

HerBERT模型摘要

Model	WWM	Cased	Tokenizer	Vocab Size	Batch Size	Train Steps
herbert-klej-cased-v1	YES	YES	BPE	50K	570	180k

模型评估

HerBERT在 KLEJ 基准测试中进行了评估，这是一个针对波兰语理解的公开可用的九个评估任务的集合。它在平均性能方面表现最好，并在其中三个任务中取得了最佳结果。

Model	Average	NKJP-NER	CDSC-E	CDSC-R	CBD	PolEmo2.0-IN\t	PolEmo2.0-OUT	DYK	PSC	AR\t
herbert-klej-cased-v1	80.5	92.7	92.5	91.9	50.3	89.2	76.3	52.1	95.3	84.5

完整的排行榜可查看 online 。

HerBERT使用

模型训练和实验是使用 transformers 版本2.0进行的。

示例代码：

from transformers import XLMTokenizer, RobertaModel

tokenizer = XLMTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
model = RobertaModel.from_pretrained("allegro/herbert-klej-cased-v1")

encoded_input = tokenizer.encode("Kto ma lepszą sztukę, ma lepszy rząd – to jasne.", return_tensors='pt')
outputs = model(encoded_input)

也可以使用AutoTokenizer和AutoModel加载HerBERT：

tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
model = AutoModel.from_pretrained("allegro/herbert-klej-cased-v1")

许可

CC BY-SA 4.0

引用

如果您使用了这个模型，请引用以下论文：

@inproceedings{rybak-etal-2020-klej,
    title = "{KLEJ}: Comprehensive Benchmark for {P}olish Language Understanding",
    author = "Rybak, Piotr  and
      Mroczkowski, Robert  and
      Tracz, Janusz  and
      Gawlik, Ireneusz",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.111",
    doi = "10.18653/v1/2020.acl-main.111",
    pages = "1191--1201",
}

作者

该模型由 Allegro 机器学习研究团队进行训练。

您可以通过 klejbenchmark@allegro.pl 联系我们。

作者:

Allegro ML Research

数据集大小:

952.75 MB