模型:
neuralspace-reverie/indic-transformers-bn-distilbert
这是在大约6GB单语训练语料库上预训练的DistilBERT语言模型。预训练数据主要来自 OSCAR 。该模型可以在各种下游任务上进行微调,如文本分类、POS标注、问答等。此模型的嵌入还可以用于基于特征的训练。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('neuralspace-reverie/indic-transformers-bn-distilbert')
model = AutoModel.from_pretrained('neuralspace-reverie/indic-transformers-bn-distilbert')
text = "আপনি কেমন আছেন?"
input_ids = tokenizer(text, return_tensors='pt')['input_ids']
out = model(input_ids)[0]
print(out.shape)
# out = [1, 5, 768]
限制和偏差
原始语言模型是使用PyTorch训练的,因此建议使用pytorch_model.bin权重文件。Tensorflow的h5文件是通过建议的命令手动生成的 here 。