模型:

avichr/heBERT_NER

英文

HeBERT: 预训练BERT用于情感分析和情感识别

HeBERT是一个希伯来语预训练语言模型。它基于 Google's BERT 架构,并且是BERT-Base配置。

HeBert是在三个数据集上进行训练的:

  • 一个希伯来语版本的 OSCAR :大约9.8GB的数据,包括10亿个单词和超过2080万个句子。
  • 一个希伯来语的 Wikipedia 转储:约650MB的数据,包括超过6300万个词和380万个句子。
  • 为本研究目的收集的情感用户生成内容(UGC)数据(下文有描述)。
  • 命名实体识别(NER)

    模型对文本中的命名实体(如人名、组织和地点)进行分类的能力;在从 Ben Mordecai and M Elhadad (2005) 标记的数据集上进行测试,并使用F1分数进行评估。

    如何使用

        from transformers import pipeline
        
        # how to use?
        NER = pipeline(
            "token-classification",
            model="avichr/heBERT_NER",
            tokenizer="avichr/heBERT_NER",
        )
        NER('דויד לומד באוניברסיטה העברית שבירושלים')
    

    其他任务

    Emotion Recognition Model .可以在 huggingface spaces 上找到一个在线模型,也可以作为 colab notebook Sentiment Analysis . masked-LM model (可以微调为任何下游任务)。

    联系我们

    Avichay Chriqui Inbal Yahav Coller Semitic Languages AI实验室 谢谢,תודה,شكرا

    如果您使用了这个模型,请引用我们的论文:

    Chriqui, A., & Yahav, I. (2021). HeBERT & HebEMO:一种希伯来语BERT模型和一种用于情感分析和情感识别的工具。arXiv预印本arXiv:2102.01909。

    @article{chriqui2021hebert,
      title={HeBERT \& HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition},
      author={Chriqui, Avihay and Yahav, Inbal},
      journal={arXiv preprint arXiv:2102.01909},
      year={2021}
    }
    

    git