模型:
stanford-crfm/levanter-backpack-1b
这是一个具有强大建模性能和解释性和控制性接口的1.4B参数版本的 Backpack architecture 模型。
该模型是在 OpenWebText 语料库上进行训练的。
该模型进行了450k个梯度步骤的训练,并使用余弦衰减学习率从1e-4衰减到零,其中线性预热了5k个步骤。
该模型是通过最小化交叉熵损失进行训练的,是一个 Backpack language model 。
请安装 transformers、safetensors和torch来使用该模型。
pip install transformers safetensors torch
运行以下Python代码:
import torch
import transformers
from transformers import AutoModelForCausalLM
model_id = "stanford-crfm/levanter-backpack-1b"
config = transformers.AutoConfig.from_pretrained(model_id, trust_remote_code=True)
torch_model = AutoModelForCausalLM.from_pretrained(
model_id,
config=config,
trust_remote_code=True
)
torch_model.eval()
input = torch.randint(0, 50264, (1, 512), dtype=torch.long)
torch_out = torch_model(input, position_ids=None,)
torch_out = torch.nn.functional.softmax(torch_out.logits, dim=-1)
print(torch_out.shape)