模型:
avichr/Legal-heBERT
任务:
Legal-HeBERT是用于希伯来语法律和立法领域的BERT模型。它旨在改进希伯来语的法律自然语言处理研究和工具开发。我们发布了两个版本的Legal-HeBERT。第一个版本是在 HeBERT 上应用于法律和立法文件的微调模型。第二个版本使用 HeBERT 的架构指导原则从头开始训练一个BERT模型。我们将继续收集法律数据,研究不同的架构设计,并进行标记数据集和法律任务以进行评估和希伯来法律工具的开发。
我们的训练数据集包括:
| 名称 | 希伯来语描述 | 大小(GB) | 文档数 | 句子数 | 单词数 | 备注 ||--------------------------------------------------------------------------------------------------------------------------------- |-------------------------------------------------------------------------- |----------- |----------- |------------ |------------- |----------------------------------------- || 以色列法典 | ספר החוקים הישראלי | 0.05 | 2338 | 293352 | 4851063 | || 最高法院的裁决 | מאגר פסקי הדין של בית המשפט העליון | 0.7 | 212348 | 5790138 | 79672415 | || 监护法院 | החלטות בתי הדין למשמורת | 2.46 | 169,708 | 8,555,893 | 213,050,492 | || 法律备忘录、次级立法草案和已发给公众评论的支持测试草案 | תזכירי חוק, טיוטות חקיקת משנה וטיוטות מבחני תמיכה שהופצו להערות הציבור | 0.4 | 3,291 | 294,752 | 7,218,960 | || 土地登记监管机构的裁决 | מאגר פסקי דין של המפקחים על רישום המקרקעין | 0.02 | 559 | 67,639 | 1,785,446 | || 劳动法庭-冠状病毒决定 | מאגר החלטות בית הדין לעניין שירות התעסוקה – קורונה | 0.001 | 146 | 3505 | 60195 | || 以色列土地委员会的裁决 | החלטות מועצת מקרקעי ישראל | | 118 | 11283 | 162692 | 集合文件 || 纪律法庭和以色列警察上诉法庭的裁决 | פסקי דין של בית הדין למשמעת ובית הדין לערעורים של משטרת ישראל | 0.02 | 54 | 83724 | 1743419 | 集合文件 || 卫生部纪律上诉委员会 | ועדת ערר לדין משמעתי במשרד הבריאות | 0.004 | 252 | 21010 | 429807 | 已扫描465个文件未解析 || 总检察长的立场 | מאגר התייצבויות היועץ המשפטי לממשלה | 0.008 | 281 | 32724 | 813877 | || 总检察长的法律意见 | מאגר חוות דעת היועץ המשפטי לממשלה | 0.002 | 44 | 7132 | 188053 | || | | | | | | || 总计 | | 3.665 | 389139 | 15161152 | 309976419 | |
我们感谢Yair Gardin提供治理数据,感谢Elhanan Schwarts收集和解析以色列法书,以及感谢Jonathan Schler收集最高法院的裁决。
经过微调的 HeBERT 模型:前8层被冻结(如 Lee et al. (2019) 建议)从头开始训练的Legal-HeBERT模型:训练过程类似于 HeBERT ,并受到 Chalkidis et al. (2020) 的启发
模型可以在HuggingFace Hub中找到,并可以根据具体任务进行微调:
# !pip install transformers==4.14.1 from transformers import AutoTokenizer, AutoModel model_name = 'avichr/Legal-heBERT_ft' # for the fine-tuned HeBERT model model_name = 'avichr/Legal-heBERT' # for legal HeBERT model trained from scratch tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name) from transformers import pipeline fill_mask = pipeline( "fill-mask", model=model_name, ) fill_mask("הקורונה לקחה את [MASK] ולנו לא נשאר דבר.")
我们正在继续改进我们的模型和数据集。随着进展,我们会更新此页面。我们欢迎合作。
Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai, Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts (June 27, 2022). 可在 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4147127 上获得。
@article{chriqui2021hebert, title={Legal HeBERT: A BERT-based NLP Model for Hebrew Legal, Judicial and Legislative Texts}, author={Chriqui, Avihay, Yahav, Inbal and Bar-Siman-Tov, Ittai}, journal={SSRN preprint:4147127}, year={2022} }
Avichay Chriqui ,科勒人工智能实验室 Inbal Yahav ,科勒人工智能实验室 Ittai Bar-Siman-Tov ,BIU创新法律、数据科学和数字伦理实验室
谢谢,תודה ,شكرا