Levanter-Backpack-1.4B模型卡片

这是一个具有强大建模性能和解释性和控制性接口的1.4B参数版本的 Backpack architecture 模型。

训练细节

训练数据

该模型是在 OpenWebText 语料库上进行训练的。

训练过程

该模型进行了450k个梯度步骤的训练，并使用余弦衰减学习率从1e-4衰减到零，其中线性预热了5k个步骤。

环境影响

硬件类型：v3-128 TPU（128个核心，2TB内存）
使用时间：大约8.6天
云服务提供商：Google Cloud Patform
计算区域：北美

模型架构和目标

该模型是通过最小化交叉熵损失进行训练的，是一个 Backpack language model 。

软件

该模型是使用 Levanter 和 Jax 进行训练的。

损失曲线

如何开始使用该模型

请安装 transformers、safetensors和torch来使用该模型。

pip install transformers safetensors torch

运行以下Python代码：

import torch
import transformers
from transformers import AutoModelForCausalLM


model_id = "stanford-crfm/levanter-backpack-1b"
config = transformers.AutoConfig.from_pretrained(model_id, trust_remote_code=True)
torch_model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    config=config, 
    trust_remote_code=True
)
torch_model.eval()

input = torch.randint(0, 50264, (1, 512), dtype=torch.long)
torch_out = torch_model(input, position_ids=None,)
torch_out = torch.nn.functional.softmax(torch_out.logits, dim=-1)
print(torch_out.shape)

作者:

Stanford CRFM

数据集大小:

5.28 GB