英文

NB-GPT-J-6B

示例: https://ai.nb.no/demo/nb-gpt-j-6B/ (请耐心等待,它在使用CPU运行 ?)

模型描述

NB-GPT-J-6B 是 GPT-J 6B 的挪威微调版本,它是使用 Ben Wang 的 Mesh Transformer JAX 进行训练的 Transformer 模型。"GPT-J"代表模型类型,"6B"代表可训练参数数量(60亿个参数)。

Hyperparameter Value
n p a r a m e t e r s n_{parameters} n p a r a m e t e r s ​ 6053381344
n l a y e r s n_{layers} n l a y e r s ​ 28*
d m o d e l d_{model} d m o d e l ​ 4096
d f f d_{ff} d f f ​ 16384
n h e a d s n_{heads} n h e a d s ​ 16
d h e a d d_{head} d h e a d ​ 256
n c t x n_{ctx} n c t x ​ 2048
n v o c a b n_{vocab} n v o c a b ​ 50257/50400† (same tokenizer as GPT-2/3)
Positional Encoding 12322321
RoPE Dimensions 12323321

* 每个层由一个前馈块和一个自注意力块组成。

† 尽管嵌入矩阵的大小为50400,但GPT-2的标记器只使用了50257个条目。

该模型由28个层组成,模型维度为4096,前馈维度为16384。模型维度分为16个头,每个头的维度为256。每个头的64个维度应用了旋转位置编码(RoPE)。模型使用50257的分词词汇表进行训练,使用与GPT-2/GPT-3相同的一组BPEs。

训练数据

NB-GPT-J-6B 在 NCC ,即挪威庞大语料库以及维基百科、mC4和OSCAR等其他互联网来源上进行微调。

训练过程

该模型在TPU v3-8 VM上进行了1,000,000步长的1300亿标记的微调。它是一个自回归语言模型,使用交叉熵损失来最大化正确预测下一个标记的可能性。

预期使用和限制

NB-GPT-J-6B 学习了挪威语言的内部表示,可以用于提取用于下游任务的特征。然而,该模型在它的预训练任务上表现最佳,即从提示中生成文本。

如何使用

可以使用 AutoModelForCausalLM 功能轻松加载该模型:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B")

限制和偏见

与原始的GPT-J模型一样,NB-GPT-J-6B的核心功能是获取一串文本并预测下一个标记。尽管语言模型被广泛用于其他任务,但是对于这项工作还有很多未知因素。在提示NB-GPT-J-6B时,重要的是要记住,在统计上最可能的下一个标记通常不会产生最“准确”的文本。切勿依赖NB-GPT-J-6B生成准确的输出文本。

原始的GPT-J是在Pile数据集上训练的,该数据集已知包含亵渎、下流和其他令人不悦的语言。根据使用情况,GPT-J可能会生成社会上不可接受的文本。有关Pile中偏见的详细分析,请参阅 Sections 5 and 6 of the Pile paper 。有关用于微调的语料库中含有的偏见的细致分析仍未完成。

与所有语言模型一样,很难预测NB-GPT-J-6B对特定提示的响应,可能会出现冒犯性内容而没有警告。我们建议在发布之前由人工筛选或过滤输出,以便审查不良内容并改善结果的质量。

评估结果

我们仍然需要找到适当的数据集来评估该模型,因此欢迎任何帮助!

引用和相关信息

BibTeX条目

引用该模型或使用的语料库:

@inproceedings{kummervold2021operationalizing,
  title={Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model},
  author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
  booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)},
  pages={20--29},
  year={2021},
  url={https://aclanthology.org/2021.nodalida-main.3/}
}

如果您使用此模型,请告知我们!可通过Twitter、GitHub、Discord或发送电子邮件与我们联系。

免责声明

此存储库中发布的模型面向广义用途,并可提供给第三方使用。这些模型可能存在偏见和/或其他不良失真。当第三方使用任何这些模型(或基于这些模型的系统)部署或提供系统和/或服务给其他方,或成为这些模型的用户时,他们应注意,他们有责任减轻其使用引起的风险,并在任何情况下遵守适用的规定,包括关于使用人工智能的规定。在任何情况下,模型的所有者(挪威国家图书馆)对第三方使用这些模型产生的任何结果不承担责任。

致谢

感谢Google通过 TPU Research Cloud 慷慨地提供计算资源,以及Cloud TPU团队提供早期访问权限的 Cloud TPU VM Alpha。特别感谢 Stella Biderman 为她的开放态度,以及 Ben Wang 为主要代码库。