Pile of Law: Learning Responsible Data Filtering from the Law and a
256GB Open-Source Legal Dataset

Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset

1 July 2022

Peter Henderson

Christopher D. Manning

Dan Jurafsky

Papers citing "Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset"

8 / 8 papers shown

Title
LRAGE: Legal Retrieval Augmented Generation Evaluation Tool Minhu Park Hongseok Oh Eunkyung Choi Wonseok Hwang AILaw RALM ELM 105 0 0 02 Apr 2025
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution Minghan Li Xilun Chen Ari Holtzman Beidi Chen Jimmy Lin Wen-tau Yih Xi Victoria Lin RALM BDL 88 10 0 29 May 2024
Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection Suchin Gururangan Dallas Card Sarah K. Drier E. K. Gade Leroy Z. Wang Zeyu Wang Luke Zettlemoyer Noah A. Smith 151 53 0 25 Jan 2022
LexGLUE: A Benchmark Dataset for Legal Language Understanding in English Ilias Chalkidis Abhik Jana D. Hartung M. Bommarito Ion Androutsopoulos Daniel Martin Katz Nikolaos Aletras AILaw ELM 112 189 0 03 Oct 2021
Towards generalisable hate speech detection: a review on obstacles and solutions Wenjie Yin A. Zubiaga 94 138 0 17 Feb 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 220 1,508 0 31 Dec 2020
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 258 1,386 0 14 Dec 2020
A Benchmark for Lease Contract Review Spyretta Leivaditi Julien Rossi Evangelos Kanoulas AILaw 81 30 0 20 Oct 2020