模型:

Norod78/hebrew-bad_wiki-gpt_neo-tiny

英文

hebrew-bad_wiki-gpt_neo-tiny

目录

  • 模型详情
  • 使用方法
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 如何开始使用该模型

模型详情

模型描述:

模型开发者注意到该模型是一种生成真正糟糕维基百科摘要文本的希伯来语无意义生成模型。

使用方法

该模型可用于文本生成。

风险、限制和偏见

内容警告:读者应注意,本部分包含令人不安、冒犯的内容,并可能传播历史和现实的刻板印象。

大量研究探讨了语言模型的偏见和公平性问题(例如, Sheng et al. (2021) Bender et al. (2021) )。

训练

训练数据:来自2020年5月的 Hebrew Wikipedia Dump (hewiki摘要)

训练过程:该模型是在之前使用 EleutherAI's gpt-neo 进行训练的 hebrew-gpt_neo-tiny 的微调结果之上进行微调的。

使用 @minimaxir aitextgen 对维基摘要文本进行了微调。

评估

配置:hebrew-gpt_neo-tiny的模型配置可以在 hebrew-gpt_neo model github 上找到

  • 激活函数:gelu
  • 头数:12
  • 词汇数:50257
  • 训练批量大小:250
  • 评估批量大小:64
  • 预测批量大小:1

环境影响

可以使用 Machine Learning Impact calculator 中提出的 Lacoste et al. (2019) 估算碳排放量。我们根据 associated paper 提供的硬件类型进行说明。

  • 硬件类型:[需要更多信息]

  • 使用小时数:未知

  • 云服务提供商:GCP tpu-v8s

  • 计算区域:europe-west4

  • 产生的碳排放量:[需要更多信息]

如何开始使用该模型

还可以使用Google Colab笔记本 here 进行操作。

​​

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Norod78/hebrew-bad_wiki-gpt_neo-tiny")

model = AutoModelForCausalLM.from_pretrained("Norod78/hebrew-bad_wiki-gpt_neo-tiny")