数据集:

pile-of-law/pile-of-law

语言:

en

计算机处理:

monolingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

no-annotation

预印本库:

arxiv:2207.00220
英文

Pile of Law数据集卡片

数据集概述

我们整理了一个大型的法律和行政数据语料库。这些数据的实用性有两个方面:(1)聚合法律和行政数据源,展示不同的数据过滤规范和法律标准;(2)收集一个可以被未来用于预训练法律领域语言模型的数据集,这是促进公正获取司法资源的关键方向。

支持的任务和排行榜

详见论文了解详情。

语言

主要是英文,但部分数据可能包含其他语言。

数据集结构

数据示例

courtListener_docket_entry_documents : 包括美国联邦法院的案号记录,包括CourtListener RECAP档案中的已提交的法庭记录。

courtListener_opinions : 来自CourtListener的美国法院裁决意见(截至2022年12月31日同步的数据)。

atticus_contracts : Atticus Project中的未注释合同。

federal_register : 美国联邦公报,其中机构提交草案规章的文件。

bva_opinions : 美国退伍军人事务局的裁决意见。

us_bills : 来自美国国会的法案草案。

cc_casebooks : 根据开放的CC许可证发布的教育案书。

tos : 未注释的服务条款合同。

euro_parl : 欧洲议会辩论。

nlrb_decisions : 来自美国国家劳动关系委员会的裁决。

scotus_oral_arguments : 美国最高法院的口头辩论。

cfr : 美国联邦法规。

state_codes : 美国州法典。

scotus_filings : 向美国最高法院提交的书面意见和申诉。

exam_outlines : 可在网上公开获取的考试大纲。

edgar : 提交给SEC并在其Edgar工具上提供的合同。

cfpb_creditcard_contracts : 美国消费金融保护局编制的信用卡合同。

constitutions : 全球各国宪法。

congressional_hearings : 美国国会听证会记录和声明。

oig : 美国检察官办公室的报告。

olc_memos : 美国法律顾问办公室的备忘录。

uscode : 美国法典(法律)。

founding_docs : 美国创始人的信件。

ftc_advisory_opinions : 美国联邦贸易委员会的咨询意见。

echr : 欧洲人权法院的意见。

eurlex : 欧洲法律。

tax_rulings : 美国税务法院的裁判。

un_debates : 联合国大会辩论。

fre : 美国联邦证据规则。

frcp : 美国联邦民事诉讼程序规则。

canadian_decisions : 加拿大安大略省和不列颠哥伦比亚省的法院裁决。

eoir : 美国移民法庭执行办公室移民和国籍先例决定。

dol_ecab : 劳工部雇员赔偿上诉委员会在2006年之后的裁决。

r_legaladvice : 格式为[帖子标题]问题:[帖子内容]主题:[帖子标签]答案#[N]:[顶部答案]的r/legaladvice和r/legaladviceofftopic子版块的筛选数据。

acus_reports : 来自美国行政管理会议的报告(2010年-2022年)。

ed_policy_guidance : 美国教育部的政策指导文件(2001年-2022年)。

uspto_office_actions : 美国专利商标局的办公行动(2019年-2022年)。

icj-pcij : 国际法院和常设国际法院的裁判。

hhs_alj_opinions : 来自美国卫生与公众服务部行政法法官(1985年-2019年)的意见。

sec_administrative_proceedings : 来自美国证券交易委员会的行政诉讼的重要诉状、命令和裁决(2005年-2022年)。

fmshrc_bluebooks : 来自美国联邦矿山安全和健康审查委员会的蓝皮书(1979年3月至2022年8月)。

resource_contracts : 由ResourceContracts.org收集的资源合同。

medicaid_policy_guidance : 来自美国卫生与公众服务部的政策指导文件(1994年-2022年)。

irs_legal_advice_memos : 来自美国国内税务局的法律建议备忘录。

doj_guidance : 来自美国司法部的指导文件(2020年-2022年)。

1/23更新 : 2023年更新的数据包括:同步更新CourtListener意见,添加ACUS报告、USPTO办公行动、教育政策指导、HHS ALJ意见、SEC行政诉讼、FMSHRC蓝皮书和ICJ/PCIJ法律意见。我们还修复了OLC意见中的某些格式不一致之处,并将考试大纲合并为一个文件,添加了一些额外的考试大纲。

由于缓存和压缩的原因,磁盘上的大小可能会有所不同,但按照2023年1月7日的数据来说,大致如下。

 % xz --list data/*.xz                      
Strms  Blocks   Compressed Uncompressed  Ratio  Check   Filename
  183     181  9,631.2 KiB     35.0 MiB  0.268  CRC64   data/train.acus_reports.jsonl.xz
    1       1  1,024.1 MiB  6,804.7 MiB  0.150  CRC64   data/train.atticus_contracts.0.jsonl.xz
    1       1  1,024.1 MiB  6,781.1 MiB  0.151  CRC64   data/train.atticus_contracts.1.jsonl.xz
    1       1  1,024.1 MiB  6,790.1 MiB  0.151  CRC64   data/train.atticus_contracts.2.jsonl.xz
    1       1  1,024.1 MiB  6,759.2 MiB  0.152  CRC64   data/train.atticus_contracts.3.jsonl.xz
    1       1    139.9 MiB    925.0 MiB  0.151  CRC64   data/train.atticus_contracts.4.jsonl.xz
    1       1  1,564.6 MiB     12.5 GiB  0.123  CRC64   data/train.bva.jsonl.xz
    1       1     29.8 MiB    154.3 MiB  0.193  CRC64   data/train.canadian_decisions.jsonl.xz
    1       1     18.5 MiB     82.6 MiB  0.224  CRC64   data/train.cc_casebooks.jsonl.xz
    1       1  3,427.3 KiB     67.2 MiB  0.050  CRC64   data/train.cfpb_cc.jsonl.xz
    1       1     72.7 MiB    582.6 MiB  0.125  CRC64   data/train.cfr.jsonl.xz
    1       1  1,056.1 MiB  4,941.9 MiB  0.214  CRC64   data/train.congressional_hearings.jsonl.xz
    1       1  3,272.4 KiB     21.3 MiB  0.150  CRC64   data/train.constitutions.jsonl.xz
    1       1  1,024.1 MiB     13.0 GiB  0.077  CRC64   data/train.courtlistenerdocketentries.0.jsonl.xz
    1       1  1,024.3 MiB     13.3 GiB  0.075  CRC64   data/train.courtlistenerdocketentries.1.jsonl.xz
    1       1  1,024.1 MiB     12.4 GiB  0.080  CRC64   data/train.courtlistenerdocketentries.2.jsonl.xz
    1       1    635.2 MiB  8,671.6 MiB  0.073  CRC64   data/train.courtlistenerdocketentries.3.jsonl.xz
    1       1    953.7 MiB  4,575.7 MiB  0.208  CRC64   data/train.courtlisteneropinions.0.jsonl.xz
    1       1    953.7 MiB  4,356.2 MiB  0.219  CRC64   data/train.courtlisteneropinions.1.jsonl.xz
    1       1    953.7 MiB  4,315.6 MiB  0.221  CRC64   data/train.courtlisteneropinions.10.jsonl.xz
    1       1    953.7 MiB  4,650.3 MiB  0.205  CRC64   data/train.courtlisteneropinions.11.jsonl.xz
    1       1    953.7 MiB  4,836.3 MiB  0.197  CRC64   data/train.courtlisteneropinions.12.jsonl.xz
    1       1    953.7 MiB  4,644.9 MiB  0.205  CRC64   data/train.courtlisteneropinions.13.jsonl.xz
    1       1    953.7 MiB  4,657.5 MiB  0.205  CRC64   data/train.courtlisteneropinions.14.jsonl.xz
    1       1    539.2 MiB  2,621.8 MiB  0.206  CRC64   data/train.courtlisteneropinions.15.jsonl.xz
    1       1    953.7 MiB  4,335.3 MiB  0.220  CRC64   data/train.courtlisteneropinions.2.jsonl.xz
    1       1    953.7 MiB  4,352.0 MiB  0.219  CRC64   data/train.courtlisteneropinions.3.jsonl.xz
    1       1    953.7 MiB  4,575.9 MiB  0.208  CRC64   data/train.courtlisteneropinions.4.jsonl.xz
    1       1    953.7 MiB  4,382.6 MiB  0.218  CRC64   data/train.courtlisteneropinions.5.jsonl.xz
    1       1    953.7 MiB  4,352.3 MiB  0.219  CRC64   data/train.courtlisteneropinions.6.jsonl.xz
    1       1    953.7 MiB  4,462.4 MiB  0.214  CRC64   data/train.courtlisteneropinions.7.jsonl.xz
    1       1    953.7 MiB  4,604.0 MiB  0.207  CRC64   data/train.courtlisteneropinions.8.jsonl.xz
    1       1    953.7 MiB  4,612.0 MiB  0.207  CRC64   data/train.courtlisteneropinions.9.jsonl.xz
  335     335  6,047.4 KiB     24.1 MiB  0.245  CRC64   data/train.doj_guidance.jsonl.xz
    1       1     41.1 MiB    305.6 MiB  0.135  CRC64   data/train.dol_ecab.jsonl.xz
    1       1     19.1 MiB    100.5 MiB  0.190  CRC64   data/train.echr.jsonl.xz
  508     507  1,502.0 KiB  4,716.7 KiB  0.318  CRC64   data/train.ed_policy_guidance.jsonl.xz
    1       1  1,372.0 MiB  9,032.6 MiB  0.152  CRC64   data/train.edgar.jsonl.xz
    1       1  3,896.6 KiB     18.6 MiB  0.205  CRC64   data/train.eoir.jsonl.xz
    1       1    140.3 MiB  1,154.7 MiB  0.121  CRC64   data/train.eurlex.jsonl.xz
    1       1     51.4 MiB    239.4 MiB  0.215  CRC64   data/train.euro_parl.jsonl.xz
    1       1    355.3 KiB  1,512.5 KiB  0.235  CRC64   data/train.examoutlines.jsonl.xz
    1       1     20.7 MiB    131.7 MiB  0.157  CRC64   data/train.federal_register.jsonl.xz
  396     396     43.9 MiB    175.7 MiB  0.250  CRC64   data/train.fmshrc.jsonl.xz
    1       1     73.4 MiB    341.7 MiB  0.215  CRC64   data/train.founding_docs.jsonl.xz
    1       1    324.2 KiB  1,459.4 KiB  0.222  CRC64   data/train.frcp.jsonl.xz
    1       1    116.1 KiB    484.9 KiB  0.239  CRC64   data/train.fre.jsonl.xz
    1       1    297.3 KiB  1,245.0 KiB  0.239  CRC64   data/train.ftc_advisory_opinions.jsonl.xz
2,084   2,083     13.4 MiB     42.2 MiB  0.318  CRC64   data/train.hhs_alj.jsonl.xz
    1       1     29.5 MiB    157.4 MiB  0.188  CRC64   data/train.ijc.jsonl.xz
  442     442  7,904.4 KiB     35.8 MiB  0.216  CRC64   data/train.irs_legal_advice_memos.jsonl.xz
  658     658  3,403.1 KiB     10.6 MiB  0.314  CRC64   data/train.medicaid_policy_guidance.jsonl.xz
    1       1    170.7 MiB    788.9 MiB  0.216  CRC64   data/train.nlrb_decisions.jsonl.xz
    1       1    218.4 MiB  1,580.3 MiB  0.138  CRC64   data/train.oig.jsonl.xz
    1       1  5,857.4 KiB     31.5 MiB  0.182  CRC64   data/train.olc_memos.jsonl.xz
    1       1     58.6 MiB    234.5 MiB  0.250  CRC64   data/train.r_legaldvice.jsonl.xz
1,639   1,639     43.7 MiB    188.1 MiB  0.232  CRC64   data/train.resource_contracts.jsonl.xz
    1       1    242.6 MiB  1,241.6 MiB  0.195  CRC64   data/train.scotus_docket_entries.jsonl.xz
    1       1     68.5 MiB    323.2 MiB  0.212  CRC64   data/train.scotus_oral.jsonl.xz
10,805  10,805     40.7 MiB    118.4 MiB  0.344  CRC64   data/train.sec.jsonl.xz
    1       1    705.0 MiB  5,019.9 MiB  0.140  CRC64   data/train.state_code.jsonl.xz
    1       1     75.2 MiB    540.8 MiB  0.139  CRC64   data/train.taxrulings.jsonl.xz
    1       1    273.6 KiB  1,318.5 KiB  0.207  CRC64   data/train.tos.jsonl.xz
    1       1     22.6 MiB    108.1 MiB  0.209  CRC64   data/train.undebates.jsonl.xz
    1       1    167.6 MiB  1,119.6 MiB  0.150  CRC64   data/train.us_bills.jsonl.xz
    1       1     25.3 MiB    196.1 MiB  0.129  CRC64   data/train.uscode.jsonl.xz
    1       1  1,713.2 MiB     33.7 GiB  0.050  CRC64   data/train.uspto_oab.jsonl.xz
   54      54  2,960.9 KiB     11.0 MiB  0.264  CRC64   data/validation.acus_reports.jsonl.xz
    1       1  1,024.1 MiB  6,797.1 MiB  0.151  CRC64   data/validation.atticus_contracts.0.jsonl.xz
    1       1    374.6 MiB  2,471.7 MiB  0.152  CRC64   data/validation.atticus_contracts.1.jsonl.xz
    1       1    523.0 MiB  4,258.9 MiB  0.123  CRC64   data/validation.bva.jsonl.xz
    1       1      9.8 MiB     50.5 MiB  0.195  CRC64   data/validation.canadian_decisions.jsonl.xz
    1       1  4,281.5 KiB     19.1 MiB  0.219  CRC64   data/validation.cc_casebooks.jsonl.xz
    1       1  1,532.6 KiB     19.6 MiB  0.077  CRC64   data/validation.cfpb_cc.jsonl.xz
    1       1     23.3 MiB    190.4 MiB  0.122  CRC64   data/validation.cfr.jsonl.xz
    1       1    347.4 MiB  1,620.7 MiB  0.214  CRC64   data/validation.congressional_hearings.jsonl.xz
    1       1  1,102.4 KiB  6,733.0 KiB  0.164  CRC64   data/validation.constitutions.jsonl.xz
    1       1  1,024.1 MiB     10.7 GiB  0.094  CRC64   data/validation.courtlistenerdocketentries.0.jsonl.xz
    1       1    473.7 MiB  5,225.2 MiB  0.091  CRC64   data/validation.courtlistenerdocketentries.1.jsonl.xz
    1       1    953.7 MiB  4,391.3 MiB  0.217  CRC64   data/validation.courtlisteneropinions.0.jsonl.xz
    1       1    953.7 MiB  4,406.9 MiB  0.216  CRC64   data/validation.courtlisteneropinions.1.jsonl.xz
    1       1    953.8 MiB  4,436.7 MiB  0.215  CRC64   data/validation.courtlisteneropinions.2.jsonl.xz
    1       1    953.7 MiB  4,476.9 MiB  0.213  CRC64   data/validation.courtlisteneropinions.3.jsonl.xz
    1       1    953.7 MiB  4,618.0 MiB  0.207  CRC64   data/validation.courtlisteneropinions.4.jsonl.xz
    1       1    238.5 MiB  1,147.4 MiB  0.208  CRC64   data/validation.courtlisteneropinions.5.jsonl.xz
  100     100  1,778.7 KiB  7,371.5 KiB  0.241  CRC64   data/validation.doj_guidance.jsonl.xz
    1       1     13.8 MiB    101.5 MiB  0.136  CRC64   data/validation.dol_ecab.jsonl.xz
    1       1  4,132.1 KiB     20.8 MiB  0.194  CRC64   data/validation.echr.jsonl.xz
  174     173    490.5 KiB  1,564.9 KiB  0.313  CRC64   data/validation.ed_policy_guidance.jsonl.xz
    1       1    453.6 MiB  2,978.9 MiB  0.152  CRC64   data/validation.edgar.jsonl.xz
    1       1  1,340.0 KiB  6,294.8 KiB  0.213  CRC64   data/validation.eoir.jsonl.xz
    1       1     49.1 MiB    393.7 MiB  0.125  CRC64   data/validation.eurlex.jsonl.xz
    1       1     17.0 MiB     79.0 MiB  0.215  CRC64   data/validation.euro_parl.jsonl.xz
    1       1    103.7 KiB    547.9 KiB  0.189  CRC64   data/validation.examoutlines.jsonl.xz
    1       1  7,419.0 KiB     45.7 MiB  0.158  CRC64   data/validation.federal_register.jsonl.xz
  120     120     13.5 MiB     53.9 MiB  0.250  CRC64   data/validation.fmshrc.jsonl.xz
    1       1     25.3 MiB    113.2 MiB  0.224  CRC64   data/validation.founding_docs.jsonl.xz
    1       1     63.5 KiB    248.8 KiB  0.255  CRC64   data/validation.frcp.jsonl.xz
    1       1     58.4 KiB    226.7 KiB  0.257  CRC64   data/validation.fre.jsonl.xz
    1       1    117.4 KiB    419.1 KiB  0.280  CRC64   data/validation.ftc_advisory_opinions.jsonl.xz
  722     721  4,900.2 KiB     15.1 MiB  0.318  CRC64   data/validation.hhs_alj.jsonl.xz
    1       1     10.0 MiB     52.3 MiB  0.191  CRC64   data/validation.ijc.jsonl.xz
  161     161  3,791.0 KiB     17.7 MiB  0.209  CRC64   data/validation.irs_legal_advice_memos.jsonl.xz
  214     214  1,101.1 KiB  3,411.1 KiB  0.323  CRC64   data/validation.medicaid_policy_guidance.jsonl.xz
    1       1     55.8 MiB    257.8 MiB  0.217  CRC64   data/validation.nlrb_decisions.jsonl.xz
    1       1     80.0 MiB    603.7 MiB  0.132  CRC64   data/validation.oig.jsonl.xz
    1       1  1,826.2 KiB  9,874.6 KiB  0.185  CRC64   data/validation.olc_memos.jsonl.xz
    1       1     19.7 MiB     78.7 MiB  0.251  CRC64   data/validation.r_legaldvice.jsonl.xz
  584     584     15.3 MiB     63.5 MiB  0.241  CRC64   data/validation.resource_contracts.jsonl.xz
    1       1     86.4 MiB    422.5 MiB  0.204  CRC64   data/validation.scotus_docket_entries.jsonl.xz
    1       1     23.1 MiB    109.0 MiB  0.212  CRC64   data/validation.scotus_oral.jsonl.xz
3,559   3,559     13.0 MiB     37.7 MiB  0.344  CRC64   data/validation.sec.jsonl.xz
    1       1    371.8 MiB  2,678.4 MiB  0.139  CRC64   data/validation.state_code.jsonl.xz
    1       1     24.8 MiB    177.4 MiB  0.140  CRC64   data/validation.taxrulings.jsonl.xz
    1       1     92.7 KiB    381.6 KiB  0.243  CRC64   data/validation.tos.jsonl.xz
    1       1  7,705.6 KiB     35.5 MiB  0.212  CRC64   data/validation.undebates.jsonl.xz
    1       1     53.8 MiB    356.3 MiB  0.151  CRC64   data/validation.us_bills.jsonl.xz
    1       1     15.2 MiB    117.5 MiB  0.129  CRC64   data/validation.uscode.jsonl.xz
    1       1    885.5 MiB     11.2 GiB  0.077  CRC64   data/validation.uspto_oab.jsonl.xz
-------------------------------------------------------------------------------
22,839  22,833     41.0 GiB    291.5 GiB  0.141  CRC64   119 files

数据字段

  • 文本:文档内容
  • 创建时间戳:如果原始来源提供了文档创建时的时间戳,我们也会提供这个字段。请注意,这些时间戳可能并不准确。例如,CourtListener案件裁决提供的时间戳是上传至CourtListener的时间,而不是裁决公布的时间。如果发现此类不准确之处,请进行修正并提交pull request。
  • 下载时间戳:文档的抓取时间。
  • URL:数据源URL。

数据分割

每个数据子集都有训练/验证分割,比例为75%/25%。请注意,我们不会对验证集进行任何下游任务的使用,也不会在下游任务中过滤任何数据。请在训练模型前根据需要进行过滤,或者可以使用不同的数据集分割。

数据集创建

策划理由

我们整理了一个大型的法律和行政数据语料库。这些数据的实用性有两个方面:(1)聚合法律和行政数据源,展现不同的数据过滤规范和法律标准;(2)收集一个可以被未来用于预训练法律领域语言模型的数据集,这是促进公正获取司法资源的关键方向。因此,数据源的策划的目的是:(1)法律分析、知识或理解;(2)论据形成;(3)隐私过滤标准。像代码和法律这样的来源主要用于(1)。笔录和法庭文件主要用于(2)。裁决意见主要用于(1)和(3)。

数据来源

初始数据收集和规范化

我们不规范化数据,但我们提供了数据集创建代码和相关URL详细说明。

资源语言的生产者是谁?

各种各样的(参见以上来源)。

个人和敏感信息

此数据集可能包含个人和敏感信息。但这些信息之前已经经过相关政府和联邦机构的筛选,权衡了披露这些信息的危害与透明度的好处。如果您遇到特别有害的内容,请向上游源发送版权投诉请求,并在Communities选项卡中通知我们。然后我们将删除该内容。我们不能启用更严格的许可证,因为上游源可能限制使用更严格的许可证。但是,我们要求所有使用此数据的用户尊重上游的许可证和限制。根据CourtListener的标准,我们不允许搜索引擎索引此数据,并请他人也不要开启任何可以轻松索引数据的选项。请不要开启任何允许数据轻松被索引的功能。

使用数据的注意事项

数据集的社会影响

我们希望这个数据集能提供更多进行数据工作的机制。如我们在论文中所述,其中的内部变异性可以用于学习上下文隐私规则。如果能开发出稳健的机制,这些规则就可以被广泛应用。这个数据集还可以用于法律语言模型的预训练。正如在“关于基础模型的机会和风险”中所讨论的,法律语言模型可以以多种方式改善司法获取。但是,它们也可以被用于潜在的有害方式。虽然这些模型还没有准备好用于大多数产品环境,并且正在进行重大的研究工作,但我们希望使用此数据的模型创建者,特别是在创建生成模型时,考虑模型的影响,并努力权衡其方法的益处和危害。我们的许可证和许多子许可证也限制商业使用。

偏见讨论

这些数据反映了政府和法院的偏见。正如我们的工作中所讨论的,这些偏见可能是显著的,尽管较新的文本可能不那么显式地具有有害性。请参阅上述声明,并负责任地进行任何模型使用。

其他已知限制

我们主要关注美国和英语国家的法律来源,但也包括一些欧洲和加拿大的资源。

其他信息

许可信息

创作共用署名-非商业性-相同方式分享4.0国际许可证。但单独的数据源可能有其他许可证。详见论文了解详情。一些上游数据源要求禁用索引。因此,请勿以可以被搜索引擎索引的方式转载任何数据。

不提供保证

我们不提供所提供的法律信息的准确性保证。这只是为了研究目的。如果要获得权威和最新的信息,请直接参考提供与您相关的最新法律、法规和规章的管理机构。

DMCA版权投诉请求

Pile of Law遵循数字千年版权法(DMCA)(17 U.S.C. Section 512)中的通知和投诉程序。

如果您认为Pile of Law上的内容侵犯了您的版权,请立即通过发送一条带有以下信息的消息通知其运营方。请在消息中使用“版权”作为主题。如果Pile of Law的操作者对侵权通知做出反应,他们将尽力使用最近提供给Pile of Law的那个人的最新电子邮件地址联系该人。

根据DMCA,您可能会因在侵权通知中提供虚假材料而承担损害赔偿责任。您还必须诚实评估您的内容使用是否属于合理使用(fair use),因为合理使用并不侵权。请参阅17 U.S.C. Section 107和Lenz v. Universal Music Corp.,案件编号:13-16106(第九巡回法院,2015年9月14日)。如果不确定要报告的内容是否侵犯了您的版权,请先咨询律师。

DMCA要求所有的侵权通知必须包括以下所有内容:

  • 版权所有人或授权代表版权所有人的人的签名
  • 被认为侵犯版权的内容的标识
  • 对涉嫌侵犯您版权的具体材料的性质和位置的描述,足以使Pile of Law能够找到并准确识别该材料
  • 您的姓名、地址、电话号码和电子邮件地址
  • 一份声明,称您诚信地相信您所声称侵犯您版权的材料的使用未经授权,无论是未经法律授权、版权所有人还是该所有人的代理人
  • 根据宣誓供述,陈述您提供的侵权通知中的所有信息均属实
  • 根据宣誓供述,陈述您是版权所有人或有权代表版权所有人行事的人。

Pile of Law将对所有符合DMCA的侵权通知作出回应,包括根据需要或适当的要求删除违规材料或禁用所有与之相关的链接。

所有接收到的侵权通知可能会以完整的形式发布到Lumen数据库(以前称为Chilling Effects Clearinghouse)。

所有包含上述信息的删除请求应发布到Communities选项卡。

此删除通知已经根据网效法院的DMCA删除通知进行了修改。

引文信息

关于此工作的引文:

@misc{hendersonkrass2022pileoflaw,
  url = {https://arxiv.org/abs/2207.00220},
  author = {Henderson*, Peter and Krass*, Mark S. and Zheng, Lucia and Guha, Neel and Manning, Christopher D. and Jurafsky, Dan and Ho, Daniel E.},
  title = {Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset},
  publisher = {arXiv},
  year = {2022}
}

由于此数据集还包括其他几个带有引文的数据源,请参考我们的论文,并在引用相关的其他工作时,除了引用我们自己的工作之外,还要引用其他相关的工作。