Arabic BERT 中等模型

用于阿拉伯语的预训练BERT中等语言模型

如果您在工作中使用了此模型，请引用此论文：

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

预训练语料库

arabic-bert-medium 模型在大约82亿个单词上进行了预训练：

从 Common Crawl 中过滤出的阿拉伯语版本 - 过滤自 OSCAR
阿拉伯语最新的 Wikipedia 转储

以及其他阿拉伯语资源，总共约95GB的文本。

关于训练数据的说明：

我们的最终语料库版本包含一些行内的非阿拉伯语单词，我们没有从句子中删除它们，因为这会影响到一些任务，如命名实体识别（NER）。
尽管非阿拉伯字符在预处理阶段被转换为小写，但由于阿拉伯字符没有大小写之分，所以模型没有大小写版本。
该语料库和词汇表并非仅限于现代标准阿拉伯语，还包含某些方言阿拉伯语。

预训练细节

使用Google BERT的github repository 在一台提供的免费TPU v3-8上训练了该模型。
我们的预训练过程遵循BERT的训练设置，但有一些变化：使用128的batchsize进行了300万个训练步骤，而不是256的batchsize进行了100万个训练步骤。

加载预训练模型

您可以通过安装 torch 或 tensorflow 和Huggingface库 transformers 来使用此模型。您可以像这样初始化它：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-medium-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-medium-arabic")

结果

有关模型性能或其他问题的更多详细信息，请参阅 Arabic-BERT

致谢

感谢Google提供免费的TPU进行训练，并感谢Huggingface在其服务器上托管此模型 😊

作者:

Ali Safaya

数据集大小:

710.43 MB