Datamodels: Predicting Predictions from Training Data

1 February 2022

Papers citing "Datamodels: Predicting Predictions from Training Data"

50 / 113 papers shown

Title
The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes Myeongseob Ko Feiyang Kang Weiyan Shi Ming Jin Zhou Yu Ruoxi Jia TDI 11 4 0 14 Feb 2024
LESS: Selecting Influential Data for Targeted Instruction Tuning Mengzhou Xia Sadhika Malladi Suchin Gururangan Sanjeev Arora Danqi Chen 80 185 0 06 Feb 2024
Automatic Combination of Sample Selection Strategies for Few-Shot Learning Branislav Pecher Ivan Srba M. Bieliková Joaquin Vanschoren 31 1 0 05 Feb 2024
What Will My Model Forget? Forecasting Forgotten Examples in Language Model Refinement Xisen Jin Xiang Ren KELM CLL 18 6 0 02 Feb 2024
Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution Ian Covert Chanwoo Kim Su-In Lee James Y. Zou Tatsunori Hashimoto TDI 27 7 0 29 Jan 2024
DsDm: Model-Aware Dataset Selection with Datamodels Logan Engstrom Axel Feldmann A. Madry OODD 15 46 0 23 Jan 2024
The Journey, Not the Destination: How Data Guides Diffusion Models Kristian Georgiev Joshua Vendrow Hadi Salman Sung Min Park Aleksander Madry 10 20 0 11 Dec 2023
Unifying Corroborative and Contributive Attributions in Large Language Models Theodora Worledge Judy Hanwen Shen Nicole Meister Caleb Winston Carlos Guestrin TDI 16 10 0 20 Nov 2023
Adaptive Training Distributions with Scalable Online Bilevel Optimization David Grangier Pierre Ablin Awni Y. Hannun 19 10 0 20 Nov 2023
Contextual Confidence and Generative AI Shrey Jain Zoe Hitzig Pamela Mishkin 28 5 0 02 Nov 2023
Intriguing Properties of Data Attribution on Diffusion Models Xiaosen Zheng Tianyu Pang Chao Du Jing Jiang Min-Bin Lin TDI 34 20 1 01 Nov 2023
Exploring Practitioner Perspectives On Training Data Attribution Explanations Elisa Nguyen Evgenii Kortukov Jean Y. Song Seong Joon Oh TDI 377 1 0 31 Oct 2023
Sample based Explanations via Generalized Representers Che-Ping Tsai Chih-Kuan Yeh Pradeep Ravikumar FAtt 39 8 0 27 Oct 2023
SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation Chongyu Fan Jiancheng Liu Yihua Zhang Eric Wong Dennis Wei Sijia Liu MU 27 120 0 19 Oct 2023
Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning Yihua Zhang Yimeng Zhang Aochuan Chen Jinghan Jia Jiancheng Liu Gaowen Liu Min-Fong Hong Shiyu Chang Sijia Liu AAML 21 8 0 13 Oct 2023
Natural Example-Based Explainability: a Survey Antonin Poché Lucas Hervier M. Bakkay XAI 24 11 0 05 Sep 2023
TorchQL: A Programming Framework for Integrity Constraints in Machine Learning Aaditya Naik Adam Stein Yinjun Wu Mayur Naik Eric Wong 30 3 0 13 Aug 2023
Towards Practical Robustness Auditing for Linear Regression Daniel Freund Samuel B. Hopkins AAML 11 2 0 30 Jul 2023
Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models Mayee F. Chen Nicholas Roberts Kush S. Bhatia Jue Wang Ce Zhang Frederic Sala Christopher Ré SyDa 23 50 0 26 Jul 2023
Rethinking Backdoor Attacks Alaa Khaddaj Guillaume Leclerc Aleksandar Makelov Kristian Georgiev Hadi Salman Andrew Ilyas A. Madry SILM 19 28 0 19 Jul 2023
Stability Guarantees for Feature Attributions with Multiplicative Smoothing Anton Xue Rajeev Alur Eric Wong 36 5 0 12 Jul 2023
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources Feiyang Kang H. Just Anit Kumar Sahu R. Jia 46 10 0 05 Jul 2023
Boosting Multitask Learning on Graphs through Higher-Order Task Affinities Dongyue Li Haotian Ju Aneesh Sharma Hongyang R. Zhang 52 8 0 24 Jun 2023
A Model-free Closeness-of-influence Test for Features in Supervised Learning M. Mehrabi Ryan A. Rossi TDI 32 0 0 20 Jun 2023
A Bayesian Approach To Analysing Training Data Attribution In Deep Learning Elisa Nguyen Minjoon Seo Seong Joon Oh BDL 434 7 0 31 May 2023
Similarity of Neural Network Models: A Survey of Functional and Representational Measures Max Klabunde Tobias Schumacher M. Strohmaier Florian Lemmerich 45 64 0 10 May 2023
DataComp: In search of the next generation of multimodal datasets S. Gadre Gabriel Ilharco Alex Fang J. Hayase Georgios Smyrnis ... A. Dimakis J. Jitsev Y. Carmon Vaishaal Shankar Ludwig Schmidt VLM 15 408 0 27 Apr 2023
On the Variance of Neural Network Training with respect to Test Sets and Distributions Keller Jordan OOD 11 10 0 04 Apr 2023
Foundation Models and Fair Use Peter Henderson Xuechen Li Dan Jurafsky Tatsunori Hashimoto Mark A. Lemley Percy Liang 22 119 0 28 Mar 2023
Identification of Negative Transfers in Multitask Learning Using Surrogate Models Dongyue Li Huy Le Nguyen Hongyang R. Zhang 34 12 0 25 Mar 2023
TRAK: Attributing Model Behavior at Scale Sung Min Park Kristian Georgiev Andrew Ilyas Guillaume Leclerc A. Madry TDI 22 127 0 24 Mar 2023
Partial Network Cloning Jingwen Ye Songhua Liu Xinchao Wang CLL 22 14 0 19 Mar 2023
Exploring the Limits of Model-Targeted Indiscriminate Data Poisoning Attacks Yiwei Lu Gautam Kamath Yaoliang Yu AAML 37 18 0 07 Mar 2023
Internet Explorer: Targeted Representation Learning on the Open Web Alexander C. Li Ellis L Brown Alexei A. Efros Deepak Pathak VLM 16 24 0 27 Feb 2023
In-context Example Selection with Influences Nguyen Tai Eric Wong 9 48 0 21 Feb 2023
Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data Jang-Hyun Kim Sangdoo Yun Hyun Oh Song 21 18 0 29 Jan 2023
Cramming: Training a Language Model on a Single GPU in One Day Jonas Geiping Tom Goldstein MoE 28 84 0 28 Dec 2022
Contrastive Error Attribution for Finetuned Language Models Faisal Ladhak Esin Durmus Tatsunori Hashimoto HILM 23 9 0 21 Dec 2022
Data Curation Alone Can Stabilize In-context Learning Ting-Yun Chang Robin Jia 19 51 0 20 Dec 2022
Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases Mazda Moayeri Wenxiao Wang Sahil Singla S. Feizi 56 14 0 05 Dec 2022
Task Discovery: Finding the Tasks that Neural Networks Generalize on Andrei Atanov Andrei Filatov Teresa Yeo Ajay Sohmshetty Amir Zamir OOD 33 10 0 01 Dec 2022
ModelDiff: A Framework for Comparing Learning Algorithms Harshay Shah Sung Min Park Andrew Ilyas A. Madry SyDa 43 26 0 22 Nov 2022
Learning to Counterfactually Explain Recommendations Yuanshun Yao Chong Wang Hang Li CML OffRL 19 1 0 17 Nov 2022
A picture of the space of typical learnable tasks Rahul Ramesh J. Mao Itay Griniasty Rubing Yang H. Teoh M. Transtrum J. Sethna Pratik Chaudhari SSL DRL 19 4 0 31 Oct 2022
Influence Functions for Sequence Tagging Models Sarthak Jain Varun Manjunatha Byron C. Wallace A. Nenkova TDI 22 8 0 25 Oct 2022
Canary in a Coalmine: Better Membership Inference with Ensembled Adversarial Queries Yuxin Wen Arpit Bansal Hamid Kazemi Eitan Borgnia Micah Goldblum Jonas Geiping Tom Goldstein MIACV 25 30 0 19 Oct 2022
Understanding Influence Functions and Datamodels via Harmonic Analysis Nikunj Saunshi Arushi Gupta M. Braverman Sanjeev Arora TDI 52 17 0 03 Oct 2022
Identify ambiguous tasks combining crowdsourced labels by weighting Areas Under the Margin Tanguy Lefort Benjamin Charlier Alexis Joly Joseph Salmon 40 5 0 30 Sep 2022
A Data-Based Perspective on Transfer Learning Saachi Jain Hadi Salman Alaa Khaddaj Eric Wong Sung Min Park A. Madry 31 37 0 12 Jul 2022
Distilling Model Failures as Directions in Latent Space Saachi Jain Hannah Lawrence Ankur Moitra A. Madry 16 89 0 29 Jun 2022