数据集:
pierreguillou/lener_br_finetuning_language_model
"LeNER-Br语言建模"数据集是来自 " LeNER-Br " 数据集( " official site " )中的葡萄牙语法律文本的集合。
法律文本是从该 " link "(93.6MB)中下载并经过处理,以创建包含训练和验证数据集(20%)的 "DatasetDict"。
"LeNER-Br语言建模"数据集可用于对语言模型(如BERTimbau " base " 和 " large " )进行微调。
巴西葡萄牙语。
" NLP | Modelos e Web App para Reconhecimento de Entidade Nomeada (NER) no domínio jurídico brasileiro "(29/12/2021)
DatasetDict({
validation: Dataset({
features: ['text'],
num_rows: 3813
})
train: Dataset({
features: ['text'],
num_rows: 15252
})
})
" !pip install datasets
from datasets import load_dataset
dataset = load_dataset("pierreguillou/lener_br_finetuning_language_model")
"