Legal-HeBERT

Legal-HeBERT是用于希伯来语法律和立法领域的BERT模型。它旨在改进希伯来语的法律自然语言处理研究和工具开发。我们发布了两个版本的Legal-HeBERT。第一个版本是在 HeBERT 上应用于法律和立法文件的微调模型。第二个版本使用 HeBERT 的架构指导原则从头开始训练一个BERT模型。我们将继续收集法律数据，研究不同的架构设计，并进行标记数据集和法律任务以进行评估和希伯来法律工具的开发。

训练数据

我们的训练数据集包括：

| 名称 | 希伯来语描述 | 大小（GB） | 文档数 | 句子数 | 单词数 | 备注 ||--------------------------------------------------------------------------------------------------------------------------------- |-------------------------------------------------------------------------- |----------- |----------- |------------ |------------- |----------------------------------------- || 以色列法典 | ספר החוקים הישראלי | 0.05 | 2338 | 293352 | 4851063 | || 最高法院的裁决 | מאגר פסקי הדין של בית המשפט העליון | 0.7 | 212348 | 5790138 | 79672415 | || 监护法院 | החלטות בתי הדין למשמורת | 2.46 | 169,708 | 8,555,893 | 213,050,492 | || 法律备忘录、次级立法草案和已发给公众评论的支持测试草案 | תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור | 0.4 | 3,291 | 294,752 | 7,218,960 | || 土地登记监管机构的裁决 | מאגר פסקי דין של המפקחים על רישום המקרקעין | 0.02 | 559 | 67,639 | 1,785,446 | || 劳动法庭-冠状病毒决定 | מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה | 0.001 | 146 | 3505 | 60195 | || 以色列土地委员会的裁决 | החלטות מועצת מקרקעי ישראל | | 118 | 11283 | 162692 | 集合文件 || 纪律法庭和以色列警察上诉法庭的裁决 | פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל | 0.02 | 54 | 83724 | 1743419 | 集合文件 || 卫生部纪律上诉委员会 | ועדת ערר לדין משמעתי במשרד הבריאות | 0.004 | 252 | 21010 | 429807 | 已扫描465个文件未解析 || 总检察长的立场 | מאגר התייצבויות היועץ המשפטי לממשלה | 0.008 | 281 | 32724 | 813877 | || 总检察长的法律意见 | מאגר חוות דעת היועץ המשפטי לממשלה | 0.002 | 44 | 7132 | 188053 | || | | | | | | || 总计 | | 3.665 | 389139 | 15161152 | 309976419 | |

我们感谢Yair Gardin提供治理数据，感谢Elhanan Schwarts收集和解析以色列法书，以及感谢Jonathan Schler收集最高法院的裁决。

训练过程

词汇表大小：50,000个标记
4个周期（1M步骤±）
学习率=5e-5
mlm_probability=0.15
批量大小=32（每个GPU）
NVIDIA GeForce RTX 2080 TI + NVIDIA GeForce RTX 3090（训练持续一周）

其他训练设置：

经过微调的 HeBERT 模型：前8层被冻结（如 Lee et al. (2019) 建议）从头开始训练的Legal-HeBERT模型：训练过程类似于 HeBERT ，并受到 Chalkidis et al. (2020) 的启发

如何使用

模型可以在HuggingFace Hub中找到，并可以根据具体任务进行微调：

# !pip install transformers==4.14.1
from transformers import AutoTokenizer, AutoModel

model_name = 'avichr/Legal-heBERT_ft' # for the fine-tuned HeBERT model 
model_name = 'avichr/Legal-heBERT' # for legal HeBERT model trained from scratch

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

from transformers import pipeline
fill_mask = pipeline(
    "fill-mask",
    model=model_name,
)
fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")

敬请关注！

我们正在继续改进我们的模型和数据集。随着进展，我们会更新此页面。我们欢迎合作。

如果使用了该模型，请引用我们的文章：

Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai, Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). 可在 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127 上获得。

@article{chriqui2021hebert,
  title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts},
  author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai},
  journal={SSRN preprint:4147127},
  year={2022}
}

联系我们

Avichay Chriqui ，科勒人工智能实验室 Inbal Yahav ，科勒人工智能实验室 Ittai Bar-Siman-Tov ，BIU创新法律、数据科学和数字伦理实验室

谢谢，תודה ，شكرا

作者:

avi chr

数据集大小:

476.25 MB