v1v2v3 (latest)

Fine-Tuning Language Models with Just Forward Passes

Neural Information Processing Systems (NeurIPS), 2023

27 May 2023

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Fine-Tuning Language Models with Just Forward Passes"

38 / 188 papers shown

Rethinking Machine Unlearning for Large Language Models

...

Mohit Bansal

Yang Liu

428

200

13 Feb 2024

Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning

422

12 Feb 2024

On the Convergence of Zeroth-Order Federated Tuning for Large Language Models

316

08 Feb 2024

Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes

Graham Neubig

279

08 Feb 2024

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

Josh Alman

Zhao Song

217

07 Feb 2024

Flora: Low-Rank Adapters Are Secretly Gradient CompressorsInternational Conference on Machine Learning (ICML), 2024

Yongchang Hao

Yanshuai Cao

Lili Mou

291

05 Feb 2024

Stochastic Two Points Method for Deep Model Zeroth-order Optimization

Yijiang Pang

Jiayu Zhou

428

02 Feb 2024

HiFT: A Hierarchical Full Parameter Fine-Tuning StrategyConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Shi Feng

296

26 Jan 2024

Private Fine-tuning of Large Language Models with Zeroth-order Optimization

566

09 Jan 2024

Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning

Wenhan Xia

Chengwei Qin

Elad Hazan

248

08 Jan 2024

IoT in the Era of Generative AI: Vision and ChallengesIEEE Internet Computing (IEEE Internet Comput.), 2024

Zhongwei Wan

Bhaskar Krishnamachari

265

03 Jan 2024

ZO-AdaMU Optimizer: Adapting Perturbation by the Momentum and Uncertainty in Zeroth-order Optimization

Shuoran Jiang

191

23 Dec 2023

Hazards from Increasingly Accessible Fine-Tuning of Downloadable Foundation Models

248

22 Dec 2023

Training Convolutional Neural Networks with the Forward-Forward algorithmScientific Reports (Sci Rep), 2023

375

22 Dec 2023

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

Zhen Qin

366

11 Dec 2023

Batched Low-Rank Adaptation of Foundation ModelsInternational Conference on Learning Representations (ICLR), 2023

Yeming Wen

Swarat Chaudhuri

OffRL

311

09 Dec 2023

f-FERM: A Scalable Framework for Robust Fair Empirical Risk MinimizationInternational Conference on Learning Representations (ICLR), 2023

Sina Baharlouei

Shivam Patel

Meisam Razaviyayn

403

06 Dec 2023

PrivateLoRA For Efficient Privacy Preserving LLM

275

23 Nov 2023

MultiLoRA: Democratizing LoRA for Better Multi-Task Learning

265

20 Nov 2023

The Expressibility of Polynomial based Attention Scheme

Zhao Song

Guangyi Xu

Junze Yin

313

30 Oct 2023

Learning to (Learn at Test Time)

322

20 Oct 2023

AdaLomo: Low-memory Optimization with Adaptive Learning RateAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Kai Lv

Hang Yan

Qipeng Guo

Haijun Lv

Xipeng Qiu

ODL

307

16 Oct 2023

DPZero: Private Fine-Tuning of Language Models without Backpropagation

446

14 Oct 2023

ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Yi-Lin Sung

Jaehong Yoon

Mohit Bansal

VLM

273

04 Oct 2023

DeepZero: Scaling up Zeroth-Order Optimization for Deep Model TrainingInternational Conference on Learning Representations (ICLR), 2023

Konstantinos Parasyris

637

03 Oct 2023

Towards Green AI in Fine-tuning Large Language Models via Adaptive BackpropagationInternational Conference on Learning Representations (ICLR), 2023

255

22 Sep 2023

A Fast Optimization View: Reformulating Single Layer Attention in LLM Based on Tensor and SVM Trick, and Solving It in Matrix Multiplication Time

297

14 Sep 2023

FwdLLM: Efficient FedLLM using Forward Gradient

Mengwei Xu

251

26 Aug 2023

How to Protect Copyright Data in Optimization of Large Language Models?AAAI Conference on Artificial Intelligence (AAAI), 2023

T. Chu

Zhao Song

Chiwun Yang

216

23 Aug 2023

Tensor-Compressed Back-Propagation-Free Training for (Physics-Informed) Neural Networks

192

18 Aug 2023

Convergence of Two-Layer Regression with Nonlinear Units

Yichuan Deng

Zhao Song

Shenghao Xie

200

16 Aug 2023

Zero-th Order Algorithm for Softmax Attention OptimizationBigData Congress [Services Society] (BSS), 2023

202

17 Jul 2023

An Algorithm with Optimal Dimension-Dependence for Zero-Order Nonsmooth Nonconvex Stochastic OptimizationJournal of machine learning research (JMLR), 2023

Guy Kornowski

Ohad Shamir

332

10 Jul 2023

ChatGPT in the Age of Generative AI and Large Language Models: A Concise Survey

Ngan Le

302

09 Jul 2023

Trainable Transformer in TransformerInternational Conference on Machine Learning (ICML), 2023

353

03 Jul 2023

Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness

181

16 Jun 2023

Full Parameter Fine-tuning for Large Language Models with Limited ResourcesAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Qipeng Guo

Xipeng Qiu

330

186

16 Jun 2023

A New Linear Scaling Rule for Private Adaptive Hyperparameter OptimizationInternational Conference on Machine Learning (ICML), 2022

341

08 Dec 2022