Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2402.04333
Cited By

LESS: Selecting Influential Data for Targeted Instruction Tuning

v1v2v3 (latest)

LESS: Selecting Influential Data for Targeted Instruction Tuning

6 February 2024

Sadhika Malladi

Suchin Gururangan

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (1339★)

Papers citing "LESS: Selecting Influential Data for Targeted Instruction Tuning"

50 / 244 papers shown

Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning

Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning

363

5

0

24 Dec 2025

When unlearning is free: leveraging low influence points to reduce computational costs

When unlearning is free: leveraging low influence points to reduce computational costs

341

0

0

04 Dec 2025

Mode-Conditioning Unlocks Superior Test-Time Scaling

Mode-Conditioning Unlocks Superior Test-Time Scaling

Aditi Raghunathan

215

4

0

30 Nov 2025

Bandit Guided Submodular Curriculum for Adaptive Subset Selection

Bandit Guided Submodular Curriculum for Adaptive Subset Selection

Lokesh Reddy Polu

Atharv Kshirsagar

Ganesh Ramakrishnan

308

0

0

28 Nov 2025

Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization

Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization

...

221

2

0

20 Nov 2025

PrAda-GAN: A Private Adaptive Generative Adversarial Network with Bayes Network Structure

PrAda-GAN: A Private Adaptive Generative Adversarial Network with Bayes Network Structure

178

4

0

11 Nov 2025

Selecting Auxiliary Data via Neural Tangent Kernels for Low-Resource Domains

Selecting Auxiliary Data via Neural Tangent Kernels for Low-Resource Domains

170

2

0

10 Nov 2025

Sampling and Loss Weights in Multi-Domain Training

Sampling and Loss Weights in Multi-Domain Training

Meisam Razaviyayn

358

0

0

10 Nov 2025

In Good GRACEs: Principled Teacher Selection for Knowledge Distillation

In Good GRACEs: Principled Teacher Selection for Knowledge DistillationIEEE computer architecture letters (CAL), 2025

Sadhika Malladi

289

3

0

04 Nov 2025

Geometric Data Valuation via Leverage Scores

Geometric Data Valuation via Leverage Scores

Rodrigo Mendoza-Smith

400

0

0

03 Nov 2025

LLM generation novelty through the lens of semantic similarity

LLM generation novelty through the lens of semantic similarity

Philipp Davydov

Matthias Bethge

509

0

1

31 Oct 2025

Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler

Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler

202

7

0

31 Oct 2025

Data-Efficient RLVR via Off-Policy Influence Guidance

Data-Efficient RLVR via Off-Policy Influence Guidance

...

213

3

0

30 Oct 2025

Accumulative SGD Influence Estimation for Data Attribution

Accumulative SGD Influence Estimation for Data Attribution

326

0

0

30 Oct 2025

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

A Survey on Efficient Large Language Model Training: From Data-centric PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

...

201

9

0

29 Oct 2025

LimRank: Less is More for Reasoning-Intensive Information Reranking

LimRank: Less is More for Reasoning-Intensive Information Reranking

428

1

0

27 Oct 2025

An Empirical Study of Sample Selection Strategies for Large Language Model Repair

An Empirical Study of Sample Selection Strategies for Large Language Model Repair

171

0

0

23 Oct 2025

LM-mixup: Text Data Augmentation via Language Model based Mixup

LM-mixup: Text Data Augmentation via Language Model based Mixup

148

0

0

23 Oct 2025

AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation

AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation

Andrew Estornell

Jiaheng Wei

264

4

0

22 Oct 2025

Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning

Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning

259

3

0

19 Oct 2025

Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior

Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior

186

0

0

16 Oct 2025

Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning

Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning

Park Cheonyoung

Jiang Bian

162

0

0

16 Oct 2025

Towards Understanding Valuable Preference Data for Large Language Model Alignment

Towards Understanding Valuable Preference Data for Large Language Model Alignment

Masashi Sugiyama

167

5

0

15 Oct 2025

On the Role of Preference Variance in Preference Optimization

On the Role of Preference Variance in Preference Optimization

211

3

0

14 Oct 2025

Z0-Inf: Zeroth Order Approximation for Data Influence

Z0-Inf: Zeroth Order Approximation for Data Influence

Narine Kokhlikyan

Kamalika Chaudhuri

Saeed Mahloujifar

225

0

0

13 Oct 2025

MeTA-LoRA: Data-Efficient Multi-Task Fine-Tuning for Large Language Models

MeTA-LoRA: Data-Efficient Multi-Task Fine-Tuning for Large Language Models

215

1

0

13 Oct 2025

f-INE: A Hypothesis Testing Framework for Estimating Influence under Training Randomness

f-INE: A Hypothesis Testing Framework for Estimating Influence under Training Randomness

Dhruv Tarsadiya

Sai Praneeth Karimireddy

277

0

0

12 Oct 2025

Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

...

183

0

0

12 Oct 2025

CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization

CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization

170

3

0

11 Oct 2025

Skill-Targeted Adaptive Training

Skill-Targeted Adaptive Training

170

2

0

11 Oct 2025

How Reliable is Language Model Micro-Benchmarking?

How Reliable is Language Model Micro-Benchmarking?

Shahzaib Saqib Warraich

Swabha Swayamdipta

278

1

0

09 Oct 2025

BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining

BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining

362

0

0

07 Oct 2025

The Physics of Data and Tasks: Theories of Locality and Compositionality in Deep Learning

The Physics of Data and Tasks: Theories of Locality and Compositionality in Deep Learning

Alessandro Favero

294

4

0

07 Oct 2025

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

290

2

0

05 Oct 2025

The Debate on RLVR Reasoning Capability Boundary: Shrinkage, Expansion, or Both? A Two-Stage Dynamic View

The Debate on RLVR Reasoning Capability Boundary: Shrinkage, Expansion, or Both? A Two-Stage Dynamic View

313

6

0

05 Oct 2025

Data Selection for Fine-tuning Vision Language Models via Cross Modal Alignment Trajectories

Data Selection for Fine-tuning Vision Language Models via Cross Modal Alignment Trajectories

Baharan Mirzasoleiman

135

2

0

01 Oct 2025

Train on Validation (ToV): Fast data selection with applications to fine-tuning

Train on Validation (ToV): Fast data selection with applications to fine-tuning

Andrea Montanari

323

2

0

01 Oct 2025

Prompt Curriculum Learning for Efficient LLM Post-Training

Prompt Curriculum Learning for Efficient LLM Post-Training

Thorsten Joachims

Richard Yuanzhe Pang

205

15

0

01 Oct 2025

RL-Guided Data Selection for Language Model Finetuning

RL-Guided Data Selection for Language Model Finetuning

312

0

0

30 Sep 2025

Finetune Once: Decoupling General & Domain Learning with Dynamic Boosted Annealing

Finetune Once: Decoupling General & Domain Learning with Dynamic Boosted Annealing

175

0

0

30 Sep 2025

Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs

Predicting Training Re-evaluation Curves Enables Effective Data Curriculums for LLMs

235

0

0

29 Sep 2025

Lightweight and Robust Federated Data Valuation

Lightweight and Robust Federated Data Valuation

273

0

0

29 Sep 2025

Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning

...

Linfeng Zhang

212

6

0

28 Sep 2025

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

158

2

0

27 Sep 2025

Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

240

0

0

27 Sep 2025

Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing

Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing

189

1

0

26 Sep 2025

Towards Multimodal Active Learning: Efficient Learning with Limited Paired Data

Towards Multimodal Active Learning: Efficient Learning with Limited Paired Data

Jiancheng Zhang

241

1

0

25 Sep 2025

TsqLoRA: Towards Sensitivity and Quality Low-Rank Adaptation for Efficient Fine-Tuning

TsqLoRA: Towards Sensitivity and Quality Low-Rank Adaptation for Efficient Fine-Tuning

197

0

0

23 Sep 2025

Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories

Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories

Parshin Shojaee

Chandan K. Reddy

146

4

0

20 Sep 2025

Toward Efficient Influence Function: Dropout as a Compression Tool

Toward Efficient Influence Function: Dropout as a Compression Tool

Mohammad Mohammadi Amiri

295

0

0

19 Sep 2025

Page 1 of 5