BERT基础日语模型（启用IPA字典，启用完整词屏蔽）

这是一个在日语文本上预训练的模型，训练过程中使用了IPA字典进行词级别的分词，然后采用WordPiece子词分词。此外，该模型在掩码语言建模（MLM）目标中启用了完整词屏蔽。

预训练的代码可以在此处找到 cl-tohoku/bert-japanese 。

模型架构

模型架构与原始的BERT基础模型相同，包含12层、768维的隐藏状态和12个注意力头。

该模型是在2019年9月1日的日语维基百科上进行训练的。为了生成训练语料库，使用了 WikiExtractor 来提取维基百科文章的纯文本。用于训练的文本文件总大小为2.6GB，包含约1700万个句子。

文本首先通过 MeCab 的形态分析器进行分词，使用了IPA字典，然后再通过WordPiece算法进行子词切分。词汇表大小为32000。

该模型的训练配置与原始的BERT相同；每个实例512个标记，每个批次256个实例，训练步骤数为100万。

为了训练掩码语言建模（MLM）目标，我们引入了“完整词屏蔽”(Whole Word Masking)的方法，即一次性屏蔽由MeCab进行分词后对应一个单词的所有子词标记。

预训练模型遵循 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。

在模型训练中，我们使用了 TensorFlow Research Cloud 项目提供的Cloud TPU。

作者:

Tohoku University

数据集大小:

1.33 GB