发布 2.0 版本 (2022年2月7日)
在挪威语的大型语料库 (C4 + NCC, 约150亿个单词标记) 上进行训练。具有50000个词汇,并使用了整词蒙版进行训练。
在这里下载模型:
有关NorBERT训练语料库、训练过程和评估基准的更多信息: http://norlm.nlpl.eu/
相关代码: https://github.com/ltgoslo/NorBERT
详细内容请参阅此论文:
Andrey Kutuzov, Jeremy Barnes, Erik Velldal, Lilja Øvrelid, Stephan Oepen. Large-Scale Contextualised Language Modelling for Norwegian , NoDaLiDa'21 (2021)
NorBERT是NorLM项目的一部分,该项目是挪威奥斯陆大学的 Language Technology Group (LTG) 协调的 EOSC-Nordic (欧洲开放科学云) 的联合倡议。
这些计算是在挪威高性能计算和数据存储的国家基础设施UNINETT Sigma2上完成的。
在2023年,我们发布了NorBERT-3的新系列挪威语言模型。一般而言,我们现在推荐使用这些模型:
NorBERT-3在这篇论文中有详细描述: NorBench – A Benchmark for Norwegian Language Models (Samuel et al., NoDaLiDa 2023)