阿拉伯-ALBERT Base

ALBERT Base的阿拉伯语版本预训练语言模型

如果您在工作中使用了这些模型，请引用此作品：

@software{ali_safaya_2020_4718724,
  author       = {Ali Safaya},
  title        = {Arabic-ALBERT},
  month        = aug,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0.0},
  doi          = {10.5281/zenodo.4718724},
  url          = {https://doi.org/10.5281/zenodo.4718724}
}

预训练数据

这些模型是在大约44亿个单词上进行预训练的：

OSCAR 的阿拉伯语版本（未混洗的语料库版本）-从 Common Crawl 中过滤出来
阿拉伯语最新的 Wikipedia 转储

关于训练数据的注释：

我们最终的语料库版本包含了一些非阿拉伯语的单词，我们没有从句子中删除这些单词，因为那会影响NER等任务。
尽管非阿拉伯字符在预处理步骤中被小写处理，但由于阿拉伯字符没有大小写之分，因此模型没有大小写版本。
语料库和词汇集不限于现代标准阿拉伯语，其中包含一些方言阿拉伯语。

预训练详情

这些模型使用Google ALBERT的github repository 在一个免费提供的TPU v3-8上进行训练。
我们的预训练过程遵循了BERT的训练设置，但有一些变化：训练步骤为700万，批大小为64，而不是12.5万，批大小为4096。

模型

albert-base	albert-large	albert-xlarge
Hidden Layers	12	24	24
Attention heads	12	16	32
Hidden size	768	1024	2048

结果

有关模型性能或其他任何查询的详细信息，请参阅 Arabic-ALBERT

如何使用

您可以通过安装torch或tensorflow和Huggingface库transformers来使用这些模型。您可以像这样直接初始化模型：

from transformers import AutoTokenizer, AutoModel

# loading the tokenizer
base_tokenizer    = AutoTokenizer.from_pretrained("kuisailab/albert-base-arabic")

# loading the model
base_model   = AutoModelForMaskedLM.from_pretrained("kuisailab/albert-base-arabic")

致谢

感谢Google为训练过程提供免费的TPU，并感谢Huggingface在其服务器上托管这些模型 😊

作者:

Ali Safaya

数据集大小:

151.08 MB