模型:

NbAiLab/nb-gpt-j-6B

任务:

文本生成

类库:

PyTorch Transformers

数据集:

NbAiLab/NCC mc4 oscar 3Aoscar 3Amc4 3ANbAiLab/NCC

语言:

其他:

gptj causal-lm

预印本库:

arxiv:2104.09864 arxiv:2101.00027

许可:

apache-2.0

模型介绍文件清单

英文

Release ✨v1✨ (January 18th, 2023) Full-precision , sharded , half-precision , 和 mesh-transformers-jax 权重所有检查点
- 发布 v1beta5 (December 18th, 2022) Full-precision , sharded , 和 half-precision 权重
- 发布 v1beta4 (October 28th, 2022) Full-precision , sharded , 和 half-precision 权重
- 发布 v1beta3 (August 8th, 2022) Full-precision , sharded , 和 half-precision 权重
- 发布 v1beta2 (June 18th, 2022) Full-precision , sharded , 和 half-precision 权重
- 发布 v1beta1 (April 28th, 2022) Half-precision 权重

NB-GPT-J-6B

示例: https://ai.nb.no/demo/nb-gpt-j-6B/ (请耐心等待，它在使用CPU运行 😅)

模型描述

NB-GPT-J-6B 是 GPT-J 6B 的挪威微调版本，它是使用 Ben Wang 的 Mesh Transformer JAX 进行训练的 Transformer 模型。"GPT-J"代表模型类型，"6B"代表可训练参数数量（60亿个参数）。

Hyperparameter	Value
n p a r a m e t e r s n_{parameters} n p a r a m e t e r s	6053381344
n l a y e r s n_{layers} n l a y e r s	28*
d m o d e l d_{model} d m o d e l	4096
d f f d_{ff} d f f	16384
n h e a d s n_{heads} n h e a d s	16
d h e a d d_{head} d h e a d	256
n c t x n_{ctx} n c t x	2048
n v o c a b n_{vocab} n v o c a b	50257/50400† (same tokenizer as GPT-2/3)
Positional Encoding	12322321
RoPE Dimensions	12323321

* 每个层由一个前馈块和一个自注意力块组成。

† 尽管嵌入矩阵的大小为50400，但GPT-2的标记器只使用了50257个条目。

该模型由28个层组成，模型维度为4096，前馈维度为16384。模型维度分为16个头，每个头的维度为256。每个头的64个维度应用了旋转位置编码（RoPE）。模型使用50257的分词词汇表进行训练，使用与GPT-2/GPT-3相同的一组BPEs。

训练数据

NB-GPT-J-6B 在 NCC ，即挪威庞大语料库以及维基百科、mC4和OSCAR等其他互联网来源上进行微调。

训练过程

该模型在TPU v3-8 VM上进行了1,000,000步长的1300亿标记的微调。它是一个自回归语言模型，使用交叉熵损失来最大化正确预测下一个标记的可能性。

预期使用和限制

NB-GPT-J-6B 学习了挪威语言的内部表示，可以用于提取用于下游任务的特征。然而，该模型在它的预训练任务上表现最佳，即从提示中生成文本。

如何使用

可以使用 AutoModelForCausalLM 功能轻松加载该模型：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B")

限制和偏见

与原始的GPT-J模型一样，NB-GPT-J-6B的核心功能是获取一串文本并预测下一个标记。尽管语言模型被广泛用于其他任务，但是对于这项工作还有很多未知因素。在提示NB-GPT-J-6B时，重要的是要记住，在统计上最可能的下一个标记通常不会产生最“准确”的文本。切勿依赖NB-GPT-J-6B生成准确的输出文本。

原始的GPT-J是在Pile数据集上训练的，该数据集已知包含亵渎、下流和其他令人不悦的语言。根据使用情况，GPT-J可能会生成社会上不可接受的文本。有关Pile中偏见的详细分析，请参阅 Sections 5 and 6 of the Pile paper 。有关用于微调的语料库中含有的偏见的细致分析仍未完成。

与所有语言模型一样，很难预测NB-GPT-J-6B对特定提示的响应，可能会出现冒犯性内容而没有警告。我们建议在发布之前由人工筛选或过滤输出，以便审查不良内容并改善结果的质量。

评估结果

我们仍然需要找到适当的数据集来评估该模型，因此欢迎任何帮助！

引用和相关信息

BibTeX条目

引用该模型或使用的语料库：

@inproceedings{kummervold2021operationalizing,
  title={Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model},
  author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
  booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)},
  pages={20--29},
  year={2021},
  url={https://aclanthology.org/2021.nodalida-main.3/}
}

如果您使用此模型，请告知我们！可通过Twitter、GitHub、Discord或发送电子邮件与我们联系。

免责声明

此存储库中发布的模型面向广义用途，并可提供给第三方使用。这些模型可能存在偏见和/或其他不良失真。当第三方使用任何这些模型（或基于这些模型的系统）部署或提供系统和/或服务给其他方，或成为这些模型的用户时，他们应注意，他们有责任减轻其使用引起的风险，并在任何情况下遵守适用的规定，包括关于使用人工智能的规定。在任何情况下，模型的所有者（挪威国家图书馆）对第三方使用这些模型产生的任何结果不承担责任。

致谢

感谢Google通过 TPU Research Cloud 慷慨地提供计算资源，以及Cloud TPU团队提供早期访问权限的 Cloud TPU VM Alpha。特别感谢 Stella Biderman 为她的开放态度，以及 Ben Wang 为主要代码库。

作者:

Nasjonalbiblioteket AI Lab

数据集大小:

22.55 GB