Data Shapley: Equitable Valuation of Data for Machine Learning

5 April 2019

Papers citing "Data Shapley: Equitable Valuation of Data for Machine Learning"

50 / 118 papers shown

Title
LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning Xiaotian Lin Yanlin Qi Yizhang Zhu Themis Palpanas Chengliang Chai Nan Tang Yuyu Luo 21 0 0 12 May 2025
Concorde: Fast and Accurate CPU Performance Modeling with Compositional Analytical-ML Fusion Arash Nasr-Esfahany Mohammad Alizadeh Victor Lee Hanna Alam Brett W. Coon ... Martin Dixon H. Levy Santosh Pandey Parthasarathy Ranganathan Amir Yazdanbakhsh 51 0 0 29 Mar 2025
FW-Shapley: Real-time Estimation of Weighted Shapley Values Pranoy Panda Siddharth Tandon V. Balasubramanian TDI 65 0 0 09 Mar 2025
MAB-Based Channel Scheduling for Asynchronous Federated Learning in Non-Stationary Environments Z. Li Yubo Yang Tao Yang X. Wu Ziyu Guo Bo Hu 64 0 0 03 Mar 2025
ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Party LLM Data Valuation Yanzhou Pan Huawei Lin Yide Ran Jiamin Chen Xiaodong Yu Weijie Zhao Denghui Zhang Zhaozhuo Xu 40 0 0 02 Mar 2025
Data Analysis Prediction over Multiple Unseen Datasets: A Vector Embedding Approach Andreas Loizou Dimitrios Tsoumakos 38 0 0 24 Feb 2025
Optimizing Product Provenance Verification using Data Valuation Methods Raquib Bin Yousuf H. Just Shengzhe Xu Brian Mayer Victor Deklerck ... J. Simeone Jade Saunders Chang-Tien Lu Ruoxi Jia Naren Ramakrishnan 45 0 0 21 Feb 2025
Data Attribution for Text-to-Image Models by Unlearning Synthesized Images Sheng-Yu Wang Aaron Hertzmann Alexei A. Efros Jun-Yan Zhu Richard Zhang TDI 128 2 0 21 Feb 2025
Building Bridges, Not Walls -- Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution Shichang Zhang Tessa Han Usha Bhalla Hima Lakkaraju FAtt 147 0 0 17 Feb 2025
LiveVal: Time-aware Data Valuation via Adaptive Reference Points Jie Xu Zihan Wu Cong Wang Xiaohua Jia AI4TS 44 0 0 14 Feb 2025
Beyond Models! Explainable Data Valuation and Metric Adaption for Recommendation Renqi Jia Xiaokun Zhang Bowei He Qiannan Zhu Weitao Xu Jiehao Chen Chen-li Ma TDI 75 0 0 12 Feb 2025
Privacy-Preserving Dataset Combination Keren Fuentes Mimee Xu Irene Chen 36 0 0 09 Feb 2025
Most Influential Subset Selection: Challenges, Promises, and Beyond Yuzheng Hu Pingbang Hu Han Zhao Jiaqi W. Ma TDI 142 2 0 10 Jan 2025
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 90 12 0 31 Dec 2024
Weak-to-Strong Generalization Through the Data-Centric Lens Changho Shin John Cooper Frederic Sala 88 5 0 05 Dec 2024
A Comprehensive Study of Shapley Value in Data Analytics Hong Lin Shixin Wan Zhongle Xie Ke Chen Meihui Zhang Lidan Shou Gang Chen 95 0 0 02 Dec 2024
Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Models Jinxu Lin Linwei Tao Minjing Dong Chang Xu TDI 38 2 0 24 Oct 2024
Data Quality Control in Federated Instruction-tuning of Large Language Models Yaxin Du Rui Ye Fengting Yuchi W. Zhao Jingjing Qu Y. Wang Siheng Chen ALM FedML 45 0 0 15 Oct 2024
Kernel Banzhaf: A Fast and Robust Estimator for Banzhaf Values Yurong Liu R. Teal Witter Flip Korn Tarfah Alrashed Dimitris Paparas Christopher Musco Juliana Freire FAtt 46 0 0 10 Oct 2024
Benchmarking Data Heterogeneity Evaluation Approaches for Personalized Federated Learning Zhilong Li Xiaohu Wu Xiaoli Tang Tiantian He Yew-Soon Ong Mengmeng Chen Qiqi Liu Qicheng Lao Han Yu FedML 32 1 0 09 Oct 2024
FRIDA: Free-Rider Detection using Privacy Attacks Pol G. Recasens Ádám Horváth Alberto Gutierrez-Torre Jordi Torres Josep Ll. Berral Balázs Pejó FedML 24 0 0 07 Oct 2024
$$\texttt{dattri}$: A Library for Efficient Data Attribution$ $\texttt{dattri}$ : A Library for Efficient Data Attribution Junwei Deng Ting-Wei Li Shiyuan Zhang Shixuan Liu Yijun Pan Hao Huang Xinhe Wang Pingbang Hu Xingjian Zhang Jiaqi W. Ma TDI 34 3 0 06 Oct 2024
Influence-oriented Personalized Federated Learning Yue Tan Guodong Long Jing Jiang Chengqi Zhang FedML 24 0 0 04 Oct 2024
How Much Can We Forget about Data Contamination? Sebastian Bordt Suraj Srinivas Valentyn Boreiko U. V. Luxburg 45 1 0 04 Oct 2024
Provably Accurate Shapley Value Estimation via Leverage Score Sampling Christopher Musco R. Teal Witter FAtt FedML TDI 49 2 0 02 Oct 2024
Targeted synthetic data generation for tabular data via hardness characterization Tommaso Ferracci Leonie Goldmann Anton Hinel Francesco Sanna Passino 135 0 0 01 Oct 2024
Adversarial Attacks on Data Attribution Xinhe Wang Pingbang Hu Junwei Deng Jiaqi W. Ma TDI 53 0 0 09 Sep 2024
Fast Training Dataset Attribution via In-Context Learning Milad Fotouhi M. T. Bahadori Oluwaseyi Feyisetan P. Arabshahi David Heckerman 31 0 0 14 Aug 2024
Data Debugging is NP-hard for Classifiers Trained with SGD Zizheng Guo Pengyu Chen Yanzhang Fu Xuelong Li 28 0 0 02 Aug 2024
Uncertainty Quantification of Data Shapley via Statistical Inference Mengmeng Wu Zhihong Liu Xiang Li Ruoxi Jia Xiangyu Chang TDI 38 1 0 28 Jul 2024
CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning Huaiguang Cai FedML TDI 50 1 0 17 Jun 2024
Data Shapley in One Training Run Jiachen T. Wang Prateek Mittal Dawn Song Ruoxi Jia TDI 31 7 0 16 Jun 2024
WeShap: Weak Supervision Source Evaluation with Shapley Values Naiqing Guan Nick Koudas 52 0 0 16 Jun 2024
Data Measurements for Decentralized Data Markets Charles Lu Mohammad Mohammadi Amiri Ramesh Raskar FedML 40 5 0 06 Jun 2024
SAVA: Scalable Learning-Agnostic Data Valuation Samuel Kessler Tam Le Vu Nguyen TDI 51 0 0 03 Jun 2024
Explaining Probabilistic Models with Distributional Values Luca Franceschi Michele Donini Cédric Archambeau Matthias Seeger FAtt 21 2 0 15 Feb 2024
FedImpro: Measuring and Improving Client Update in Federated Learning Zhenheng Tang Yonggang Zhang S. Shi Xinmei Tian Tongliang Liu Bo Han Xiaowen Chu FedML 17 13 0 10 Feb 2024
Towards Fair, Robust and Efficient Client Contribution Evaluation in Federated Learning Meiying Zhang Huan Zhao Sheldon C Ebron Kan Yang FedML 11 2 0 06 Feb 2024
Better, Not Just More: Data-Centric Machine Learning for Earth Observation R. Roscher M. Rußwurm Caroline Gevaert Michael C. Kampffmeyer J. A. dos Santos ... Ronny Hansch Stine Hansen Keiller Nogueira Jonathan Prexl D. Tuia 32 10 0 08 Dec 2023
Train ñ Trade: Foundations of Parameter Markets Tzu-Heng Huang Harit Vishwakarma Frederic Sala AIFin 24 2 0 07 Dec 2023
Using Cooperative Game Theory to Prune Neural Networks M. Diaz-Ortiz Benjamin Kempinski Daphne Cornelisse Yoram Bachrach Tal Kachman 33 2 0 17 Nov 2023
Intriguing Properties of Data Attribution on Diffusion Models Xiaosen Zheng Tianyu Pang Chao Du Jing Jiang Min-Bin Lin TDI 34 20 1 01 Nov 2023
Farzi Data: Autoregressive Data Distillation Noveen Sachdeva Zexue He Wang-Cheng Kang Jianmo Ni D. Cheng Julian McAuley DD 19 3 0 15 Oct 2023
Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources Feiyang Kang H. Just Anit Kumar Sahu R. Jia 50 10 0 05 Jul 2023
DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation Felipe Garrido-Lucero Benjamin Heymann Maxime Vono P. Loiseau Vianney Perchet FedML TDI 37 3 0 03 Jun 2023
Detecting Errors in a Numerical Response via any Regression Model Hang Zhou Jonas W. Mueller Mayank Kumar Jane-ling Wang Jing-Sheng Lei 25 0 0 26 May 2023
RLBoost: Boosting Supervised Models using Deep Reinforcement Learning Eloy Anguiano Batanero Ángela Fernández Pascual Á. Jiménez OffRL 13 0 0 23 May 2023
MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement Zifeng Wang Chufan Gao Cao Xiao Jimeng Sun LMTD 20 12 0 20 May 2023
Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation Yuxin Ren Zi-Qi Zhong Xingjian Shi Yi Zhu Chun Yuan Mu Li 21 7 0 16 May 2023
A Survey of Federated Evaluation in Federated Learning Behnaz Soltani Yipeng Zhou Venus Haghighi John C. S. Lui FedML 33 12 0 14 May 2023