模型:
readerbench/jurBERT-base
其他:
bertjurBERT-base 模型卡
语言:
使用掩码语言建模(MLM)和下一个句子预测(NSP)目标来训练的BERT罗马尼亚语法律模型。它在此 paper 中被介绍。发布了两个BERT模型: jurBERT-base 和 jurBERT-large ,所有版本均为无大小写区分的。
| Model | Weights | L | H | A | MLM accuracy | NSP accuracy |
|---|---|---|---|---|---|---|
| jurBERT-base | 111M | 12 | 768 | 12 | 0.8936 | 0.9923 |
| jurBERT-large | 337M | 24 | 1024 | 24 | 0.9005 | 0.9929 |
所有模型都可用:
如何使用# tensorflow
from transformers import AutoModel, AutoTokenizer, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("readerbench/jurBERT-base")
model = TFAutoModel.from_pretrained("readerbench/jurBERT-base")
inputs = tokenizer("exemplu de propoziție", return_tensors="tf")
outputs = model(inputs)
# pytorch
from transformers import AutoModel, AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("readerbench/jurBERT-base")
model = AutoModel.from_pretrained("readerbench/jurBERT-base")
inputs = tokenizer("exemplu de propoziție", return_tensors="pt")
outputs = model(**inputs)
该模型是在一个私有语料库上进行训练的(尽管可以通过付费租用),此语料库包含2010年至2018年之间由任何罗马尼亚民事法院发布的所有终审裁决书,包括民事和刑事案件。验证是在其他两个数据集RoBanking和BRDCases上进行的。我们从RoJur中提取了与银行领域相关的常见案件类型(例如,管理费诉讼、执行上诉),仅保留原告和被告提供的论据摘要以及最终判决结果(布尔值形式)来构建RoBanking。BRDCases是一个包含BRD Société Générale Romania直接参与的案件集合。
| Corpus | Scope | Entries | Size (GB) |
|---|---|---|---|
| RoJur | pre-training | 11M | 160 |
| RoBanking | downstream | 108k | - |
| BRDCases | downstream | 149 | - |
我们报告了预测案件结果时的平均AUC和标准AUC。
| Model | Mean AUC | Std AUC |
|---|---|---|
| CNN | 79.60 | - |
| BI-LSTM | 80.99 | 0.26 |
| RoBERT-small | 70.54 | 0.28 |
| RoBERT-base | 79.74 | 0.21 |
| RoBERT-base + hf | 79.82 | 0.11 |
| RoBERT-large | 76.53 | 5.43 |
| jurBERT-base | 81.47 | 0.18 |
| jurBERT-base + hf | 81.40 | 0.18 |
| jurBERT-large | 78.38 | 1.77 |
| Model | Mean AUC | Std AUC |
|---|---|---|
| BI-LSTM | 84.60 | 0.59 |
| RoBERT-base | 84.40 | 0.26 |
| RoBERT-base + hf | 84.43 | 0.15 |
| jurBERT-base | 86.63 | 0.18 |
| jurBERT-base + hf | 86.73 | 0.22 |
| jurBERT-large | 82.04 | 0.64 |
| Model | Mean AUC | Std AUC |
|---|---|---|
| SVM with SK | 57.72 | 2.15 |
| RoBERT-base | 53.24 | 1.76 |
| RoBERT-base + hf | 55.40 | 0.96 |
| jurBERT-base | 59.65 | 1.16 |
| jurBERT-base + hf | 61.46 | 1.76 |
有关完整的结果和讨论,请参阅 paper .
@inproceedings{masala2021jurbert,
title={jurBERT: A Romanian BERT Model for Legal Judgement Prediction},
author={Masala, Mihai and Iacob, Radu Cristian Alexandru and Uban, Ana Sabina and Cidota, Marina and Velicu, Horia and Rebedea, Traian and Popescu, Marius},
booktitle={Proceedings of the Natural Legal Language Processing Workshop 2021},
pages={86--94},
year={2021}
}