Datamodels: Predicting Predictions from Training Data

1 February 2022

ArXiv (abs)PDF HTML Github (97★)

Papers citing "Datamodels: Predicting Predictions from Training Data"

50 / 136 papers shown

Efficiently Learning Branching Networks for Multitask Algorithmic Reasoning

30 Nov 2025

AssayMatch: Learning to Select Data for Molecular Activity Models

Vincent Fan

Regina Barzilay

20 Nov 2025

Rethinking Data Value: Asymmetric Data Shapley for Structure-Aware Valuation in Data Markets and Machine Learning Pipelines

100

17 Nov 2025

Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation

415

16 Nov 2025

Error Estimate and Convergence Analysis for Data Valuation

Zhangyong Liang

Huanhuan Gao

Ji Zhang

09 Nov 2025

Nonparametric Data Attribution for Diffusion Models

225

16 Oct 2025

What Is The Performance Ceiling of My Classifier? Utilizing Category-Wise Influence Functions for Pareto Frontier Analysis

222

04 Oct 2025

Train on Validation (ToV): Fast data selection with applications to fine-tuning

Ayush Jain

Andrea Montanari

Eren Sasoglu

184

01 Oct 2025

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Sebastian Bordt

Martin Pawelczyk

CLL

186

27 Sep 2025

Exploring Training Data Attribution under Limited Access Constraints

270

16 Sep 2025

Coresets from Trajectories: Selecting Data via Correlation of Loss Differences

M. Nagaraj

Deepak Ravikumar

Kaushik Roy

233

27 Aug 2025

Understanding Data Influence with Differential Approximation

273

20 Aug 2025

Efficiently Verifiable Proofs of Data Attribution

346

14 Aug 2025

Integrated Influence: Data Attribution with Baseline

189

07 Aug 2025

WSS-CL: Weight Saliency Soft-Guided Contrastive Learning for Efficient Machine Unlearning Image Classification

Thang Duc Tran

Thai Hoang Le

129

06 Aug 2025

COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning

Sateesh Kumar

Shivin Dass

Georgios Pavlakos

Roberto Martín-Martín

143

02 Aug 2025

SourceSplice: Source Selection for Machine Learning Tasks

Ambarish Singh

Romila Pradhan

121

29 Jul 2025

Better Training Data Attribution via Better Inverse Hessian-Vector Products

330

19 Jul 2025

Effective Data Pruning through Score Extrapolation

324

10 Jun 2025

Learning to Weight Parameters for Training Data Attribution

388

06 Jun 2025

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

394

30 May 2025

Daunce: Data Attribution through Uncertainty Estimation

172

29 May 2025

LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions

412

27 May 2025

Enhancing Training Data Attribution with Representational Optimization

466

24 May 2025

Small-to-Large Generalization: Data Influences Models Consistently Across Scale

281

22 May 2025

IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment

208

19 May 2025

DataMIL: Selecting Data for Robot Imitation Learning with Datamodels

Roberto Martín-Martín

350

14 May 2025

MAGIC: Near-Optimal Data Attribution for Deep Learning

Andrew Ilyas

Logan Engstrom

TDI

360

23 Apr 2025

Learning to Attribute with Attention

Benjamin Cohen-Wang

Yung-Sung Chuang

Aleksander Madry

312

18 Apr 2025

Representational Similarity via Interpretable Visual ConceptsInternational Conference on Learning Representations (ICLR), 2025

984

19 Mar 2025

Finding the Muses: Identifying Coresets through Loss Trajectories

315

12 Mar 2025

A Causal Framework for Aligning Image Quality Metrics and Deep Neural Network Robustness

Nathan G. Drenkow

Mathias Unberath

OOD

341

04 Mar 2025

Data Attribution for Text-to-Image Models by Unlearning Synthesized ImagesNeural Information Processing Systems (NeurIPS), 2024

461

21 Feb 2025

Privacy-Preserving Dataset Combination

Keren Fuentes

Mimee Xu

Irene Chen

357

09 Feb 2025

SAPPHIRE: Preconditioned Stochastic Variance Reduction for Faster Large-Scale Statistical Learning

Jingruo Sun

Zachary Frangella

Madeleine Udell

218

28 Jan 2025

Most Influential Subset Selection: Challenges, Promises, and BeyondNeural Information Processing Systems (NeurIPS), 2024

488

10 Jan 2025

Towards Data Governance of Frontier AI Models

Jason Hausenloy

Duncan McClements

Madhavendra Thakur

454

05 Dec 2024

A Versatile Influence Function for Data Attribution with Non-Decomposable Loss

305

02 Dec 2024

TAROT: Targeted Data Selection via Optimal Transport

557

30 Nov 2024

Delta-Influence: Unlearning Poisons via Influence Functions

Wenjie Li

Jiawei Li

Christian Schroeder de Witt

Amartya Sanyal

MU TDI

429

20 Nov 2024

Loss-to-Loss Prediction: Scaling Laws for All Datasets

292

19 Nov 2024

One Sample Fits All: Approximating All Probabilistic Values Simultaneously and EfficientlyNeural Information Processing Systems (NeurIPS), 2024

Weida Li

Yaoliang Yu

220

31 Oct 2024

Attribute-to-Delete: Machine Unlearning via Datamodel Matching

267

30 Oct 2024

Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion ModelsInternational Conference on Learning Representations (ICLR), 2024

435

24 Oct 2024

Hybrid Preferences: Learning to Route Instances for Human vs. AI FeedbackAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Lester James V. Miranda

435

24 Oct 2024

Scalable Influence and Fact Tracing for Large Language Model PretrainingInternational Conference on Learning Representations (ICLR), 2024

307

22 Oct 2024

Influential Language Data Selection via Gradient Trajectory Pursuit

Zhiwei Deng

Tao Li

Yang Li

213

22 Oct 2024

Active Fourier Auditor for Estimating Distributional Properties of ML ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Ayoub Ajarra

Bishwamittra Ghosh

Debabrota Basu

MLAU

353

10 Oct 2024

$$\texttt{dattri}$: A Library for Efficient Data Attribution$

\texttt{dattri}

: A Library for Efficient Data AttributionNeural Information Processing Systems (NeurIPS), 2024

Pingbang Hu

Jiaqi W. Ma

170

06 Oct 2024

How Much Can We Forget about Data Contamination?

452

04 Oct 2024