印尼DistilBERT基础模型（不区分大小写）

模型描述

这个模型是 Indonesian BERT base model 的精简版。该模型不区分大小写。

这是预先使用印尼数据集进行预训练的几个其他语言模型之一。有关在下游任务（文本分类、文本生成等）中使用的详细信息，请参阅 Transformer based Indonesian Language Models 。

预期用途和限制

如何使用

您可以直接使用此模型进行掩码语言建模的管道：

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/distilbert-base-indonesian')
>>> unmasker("Ayahku sedang bekerja di sawah untuk [MASK] padi")

[
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk menanam padi [SEP]",
    "score": 0.6853187084197998,
    "token": 12712,
    "token_str": "menanam"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk bertani padi [SEP]",
    "score": 0.03739545866847038,
    "token": 15484,
    "token_str": "bertani"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk memetik padi [SEP]",
    "score": 0.02742469497025013,
    "token": 30338,
    "token_str": "memetik"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk penggilingan padi [SEP]",
    "score": 0.02214187942445278,
    "token": 28252,
    "token_str": "penggilingan"
  },
  {
    "sequence": "[CLS] ayahku sedang bekerja di sawah untuk tanam padi [SEP]",
    "score": 0.0185895636677742,
    "token": 11308,
    "token_str": "tanam"
  }
]

以下是如何在PyTorch中使用此模型获取给定文本的特征：

from transformers import DistilBertTokenizer, DistilBertModel

model_name='cahya/distilbert-base-indonesian'
tokenizer = DistilBertTokenizer.from_pretrained(model_name)
model = DistilBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

以及在Tensorflow中的使用方式：

from transformers import DistilBertTokenizer, TFDistilBertModel

model_name='cahya/distilbert-base-indonesian'
tokenizer = DistilBertTokenizer.from_pretrained(model_name)
model = TFDistilBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

训练数据

该模型使用522MB的印尼维基百科和1GB的 indonesian newspapers 进行了精简。文本被小写并使用WordPiece进行标记化，词汇表大小为32,000。然后，模型的输入形式为：

[CLS] 句子A [SEP] 句子B [SEP]

作者:

Cahya Wirawan

数据集大小:

260.11 MB