英文

数据集卡片:“LegalGLUE”

数据集概述

“法律通用语言理解评估”(LegalGLUE)数据集是作为一篇学士学位论文的一部分创建的。它由四个已经存在的数据集组成,涵盖了三种任务类型和共23种不同的语言。

支持的任务

Dataset Source Task Type Languages
German_LER 12311321 Named Entity Recognition German
LeNER_Br 12312321 Named Entity Recognition Portuguese
SwissJudgmentPrediction 12313321 Binary Text Classification German, French, Italian
MultEURLEX 12314321 Multi-label Text Classification 23 languages (see below)

语言

见分割部分

数据集结构

数据实例

German_LER

德语_LER示例

from datasets import load_dataset
dataset = load_dataset('jfrenz/legalglue', 'german_ler')
{
  'id': '66722',
  'tokens':['4.', 'Die', 'Kostenentscheidung', 'für', 'das', 'gerichtliche', 'Antragsverfahren', 'beruht', 'auf', '§', '21', 'Abs.', '2', 'Satz', '1', 'i.', 'V.', 'm.', '§', '20', 'Abs.', '1', 'Satz', '1', 'WBO', '.'],
  'ner_tags': [38, 38, 38, 38, 38, 38, 38, 38, 38, 3, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 38]
}
LeNER-Br

LeNER-Br示例

from datasets import load_dataset
dataset = load_dataset('jfrenz/legalglue', 'lener_br')
{
  'id': '7826',
  'tokens': ['Firmado', 'por', 'assinatura', 'digital', '(', 'MP', '2.200-2/2001', ')', 'JOSÉ', 'ROBERTO', 'FREIRE', 'PIMENTA', 'Ministro', 'Relator', 'fls', '.', 'PROCESSO', 'Nº', 'TST-RR-1603-79.2010.5.20.0001'],
  'ner_tags': [0, 0, 0, 0, 0, 9, 10, 0, 3, 4, 4, 4, 0, 0, 0, 0, 11, 12, 12]}
SwissJudgmentPrediction

swissJudgmentPrediction_de示例

from datasets import load_dataset
dataset = load_dataset('jfrenz/legalglue', 'swissJudgmentPrediction_de')
{
  'id': 48755,
  'year': 2014,
  'text': "Sachverhalt: A. X._ fuhr am 25. Juli 2012 bei Mülligen mit seinem Personenwagen auf dem zweiten Überholstreifen der Autobahn A1 in Richtung Zürich. Gemäss Anklage schloss er auf einen Lieferwagen auf und schwenkte vom zweiten auf den ersten Überholstreifen aus. Danach fuhr er an zwei Fahrzeugen rechts vorbei und wechselte auf die zweite Überholspur zurück. B. Das Obergericht des Kantons Aargau erklärte X._ am 14. Januar 2014 zweitinstanzlich der groben Verletzung der Verkehrsregeln schuldig. Es bestrafte ihn mit einer bedingten Geldstrafe von 30 Tagessätzen zu Fr. 430.-- und einer Busse von Fr. 3'000.--. C. X._ führt Beschwerde in Strafsachen. Er beantragt, er sei von Schuld und Strafe freizusprechen. Eventualiter sei die Sache an die Vorinstanz zurückzuweisen. ",
  'label': 0,
  'language': 'de',
  'region': 'Northwestern Switzerland',
  'canton': 'ag',
  'legal area': 'penal law'
}
MultiEURLEX

来自MultiEURLEX-Dataset的单语例子

from datasets import load_dataset
dataset = load_dataset('jfrenz/legalglue', 'multi_eurlex_de')
{
  'celex_id': '32002R0130',
  'text': 'Verordnung (EG) Nr. 130/2002 der Kommission\nvom 24. Januar 2002\nbezüglich der im Rahmen der Auss...',
  'labels': [3, 17, 5]}

来自MultiEURLEX-Dataset的多语例子

from datasets import load_dataset
dataset = load_dataset('jfrenz/legalglue', 'multi_eurlex_all_languages')
{
  'celex_id': '32002R0130',
  'text': {
    'bg': None,
    'cs': None,
    'da': 'Kommissionens ...',
    'de': 'Verordnung ... ',
    'el': '...',
    'en': '...',
    ...
    },
    'labels': [3, 17, 5]
  }

数据字段

German_LER
  • id:样本的id
  • tokens:样本文本的标记
  • ner_tags:每个标记的NER标签
LeNER_Br
  • id:样本的id
  • tokens:样本文本的标记
  • ner_tags:每个标记的NER标签
SwissJudgmentPrediction
  • id:(整数)文档的ID
  • year:(整数)出版年份
  • text:(字符串)案件事实
  • label:(类别标签)判决结果:0(驳回)或1(批准)
  • language:(字符串)其中之一(de,fr,it)
  • region:(字符串)下级法院的地区
  • canton:(字符串)下级法院的州
  • legal area:(字符串)案件的法律领域
MultiEURLEX

单语使用:

  • celex_id:(字符串)公文的官方文档ID
  • text:(字符串)欧盟法规
  • labels:(列表[整数])相关的EUROVOC概念(标签)的列表

多语使用:

  • celex_id:(字符串)公文的官方文档ID
  • text:(dict[字符串])一个具有23种语言作为键和相应的欧盟法规作为值的字典
  • labels:(列表[整数])相关的EUROVOC概念(标签)的列表

标签列表默认包含一级EUROVOC概念。可以通过在加载数据集时添加label_level参数来更改。 (可用级别:level_1,level_2,level_3,all_levels)

from datasets import load_dataset
dataset = load_dataset('jfrenz/legalglue', 'multi_eurlex_de', label_level="level_3")

数据拆分

Dataset Language ISO code Number of Documents train/dev/test
German-LER German de 66723 / - / -
LeNER-Br Portuguese pt 7828 / 1177 / 1390
SwissJudgmentPrediction German de 35458 / 4705 / 9725
French fr 21179 / 3095 / 6820
Italian it 3072 / 408 / 812
MultiEURLEX English en 55,000 / 5,000 / 5,000
German de 55,000 / 5,000 / 5,000
French fr 55,000 / 5,000 / 5,000
Italian it 55,000 / 5,000 / 5,000
Spanish es 52,785 / 5,000 / 5,000
Polish pl 23,197 / 5,000 / 5,000
Romanian ro 15,921 / 5,000 / 5,000
Dutch nl 55,000 / 5,000 / 5,000
Greek el 55,000 / 5,000 / 5,000
Hungarian hu 22,664 / 5,000 / 5,000
Portuguese pt 23,188 / 5,000 / 5,000
Czech cs 23,187 / 5,000 / 5,000
Swedish sv 42,490 / 5,000 / 5,000
Bulgarian bg 15,986 / 5,000 / 5,000
Danish da 55,000 / 5,000 / 5,000
Finnish fi 42,497 / 5,000 / 5,000
Slovak sk 15,986 / 5,000 / 5,000
Lithuanian lt 23,188 / 5,000 / 5,000
Croatian hr 7,944 / 2,500 / 5,000
Slovene sl 23,184 / 5,000 / 5,000
Estonian et 23,126 / 5,000 / 5,000
Latvian lv 23,188 / 5,000 / 5,000
Maltese mt 17,521 / 5,000 / 5,000

数据集创建

策划理由

[需要更多信息]

源数据

Initial Data Collection and Normalization

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注解

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

[需要更多信息]