bert-tiny-bahasa-cased

马来语的预训练BERT小型语言模型。

预训练语料库

bert-tiny-bahasa-cased模型在约14亿个词上进行了预训练。以下是我们训练的数据列表：

cleaned local texts .

translated The Pile .

预训练详情

可从此处重新生成所有步骤， Malaya/pretrained-model/bert .

加载预训练模型

您可以通过安装 torch 或 tensorflow 和 Huggingface 库 transformers 来使用此模型。然后可以像这样初始化它：

from transformers import BertTokenizer, BertModel

model = BertModel.from_pretrained('malay-huggingface/bert-tiny-bahasa-cased')
tokenizer = BertTokenizer.from_pretrained(
    'malay-huggingface/bert-tiny-bahasa-cased',
    do_lower_case = False,
)

使用 AutoModelWithLMHead 的示例

from transformers import BertTokenizer, BertForMaskedLM, pipeline

model = BertForMaskedLM.from_pretrained('malay-huggingface/bert-tiny-bahasa-cased')
tokenizer = BertTokenizer.from_pretrained(
    'malay-huggingface/bert-tiny-bahasa-cased',
    do_lower_case = False,
)
fill_mask = pipeline('fill-mask', model=model, tokenizer=tokenizer)
fill_mask('Permohonan Najib, anak untuk dengar isu perlembagaan [MASK] .')

输出为：

[{'sequence': 'Permohonan Najib, anak untuk dengar isu perlembagaan Malaysia.',
  'score': 0.09178723394870758,
  'token': 1957,
  'token_str': 'M a l a y s i a'},
 {'sequence': 'Permohonan Najib, anak untuk dengar isu perlembagaan negara.',
  'score': 0.053524162620306015,
  'token': 2134,
  'token_str': 'n e g a r a'},
 {'sequence': 'Permohonan Najib, anak untuk dengar isu perlembagaan dikemukakan.',
  'score': 0.031137527897953987,
  'token': 9383,
  'token_str': 'd i k e m u k a k a n'},
 {'sequence': 'Permohonan Najib, anak untuk dengar isu perlembagaan 1MDB.',
  'score': 0.02826082520186901,
  'token': 13838,
  'token_str': '1 M D B'},
 {'sequence': 'Permohonan Najib, anak untuk dengar isu perlembagaan ditolak.',
  'score': 0.026568090543150902,
  'token': 11465,
  'token_str': 'd i t o l a k'}]

作者:

Malaysia Huggingface

数据集大小:

63.65 MB