v1v2 (latest)

The Benefits of Implicit Regularization from SGD in Least Squares Problems

Neural Information Processing Systems (NeurIPS), 2021

10 August 2021

Quanquan Gu

ArXiv (abs)PDF HTML Github

Papers citing "The Benefits of Implicit Regularization from SGD in Least Squares Problems"

26 / 26 papers shown

On the Interplay between Graph Structure and Learning Algorithms in Graph Neural Networks

Junwei Su

Chuan Wu

118

20 Aug 2025

Improved Scaling Laws in Linear Regression via Data Reuse

Licong Lin

Jingfeng Wu

Peter Bartlett

235

10 Jun 2025

Learning Curves of Stochastic Gradient Descent in Kernel Regression

204

28 May 2025

Memory-Statistics Tradeoff in Continual Learning with Structural Regularization

397

05 Apr 2025

Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors

523

11 Mar 2025

How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear RegressionNeural Information Processing Systems (NeurIPS), 2024

Xingwu Chen

Lei Zhao

Difan Zou

270

08 Aug 2024

Scaling Laws in Linear Regression: Compute, Parameters, and Data

559

12 Jun 2024

On the Benefits of Over-parameterization for Out-of-Distribution Generalization

Yifan Hao

Yong Lin

Difan Zou

Tong Zhang

OODD OOD

281

26 Mar 2024

Improving Implicit Regularization of SGD with Preconditioning for Least Square Problems

Junwei Su

Difan Zou

Chuan Wu

476

13 Mar 2024

Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics

Soo Min Kwon

Zekai Zhang

Dogyoon Song

Laura Balzano

Qing Qu

355

08 Nov 2023

A Fast Optimization View: Reformulating Single Layer Attention in LLM Based on Tensor and SVM Trick, and Solving It in Matrix Multiplication Time

344

14 Sep 2023

Transformers as Support Vector Machines

Davoud Ataee Tarzanagh

Yingcong Li

Christos Thrampoulidis

Samet Oymak

531

31 Aug 2023

Max-Margin Token Selection in Attention MechanismNeural Information Processing Systems (NeurIPS), 2023

Davoud Ataee Tarzanagh

Yingcong Li

Xuechen Zhang

Samet Oymak

612

23 Jun 2023

Federated Learning under Covariate Shifts with Generalization Guarantees

391

08 Jun 2023

Finite-Sample Analysis of Learning High-Dimensional Single ReLU NeuronInternational Conference on Machine Learning (ICML), 2023

Quanquan Gu

323

03 Mar 2023

Local SGD in Overparameterized Linear Regression

Mike Nguyen

Charly Kirst

Nicole Mücke

185

20 Oct 2022

Losing momentum in continuous-time stochastic optimisation

Kexin Jin

J. Latz

Chenguang Liu

Alessandro Scagliotti

174

08 Sep 2022

The Power and Limitation of Pretraining-Finetuning for Linear Regression under Covariate ShiftNeural Information Processing Systems (NeurIPS), 2022

Quanquan Gu

214

03 Aug 2022

Implicit Regularization with Polynomial Growth in Deep Tensor FactorizationInternational Conference on Machine Learning (ICML), 2022

210

18 Jul 2022

Implicit Bias of Gradient Descent on Reparametrized Models: On Equivalence to Mirror DescentNeural Information Processing Systems (NeurIPS), 2022

Zhiyuan Li

Tianhao Wang

Jason D. Lee

Sanjeev Arora

368

08 Jul 2022

A Novel Fast Exact Subproblem Solver for Stochastic Quasi-Newton Cubic Regularized Optimization

241

19 Apr 2022

Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation RegimeNeural Information Processing Systems (NeurIPS), 2022

Quanquan Gu

265

07 Mar 2022

Last Iterate Risk Bounds of SGD with Decaying Stepsize for Overparameterized Linear RegressionInternational Conference on Machine Learning (ICML), 2021

Quanquan Gu

373

12 Oct 2021

Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic StabilityAAAI Conference on Artificial Intelligence (AAAI), 2021

248

24 Sep 2021

Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models?

Dominic Richards

Guang Cheng

Patrick Rebeschini

568

26 Aug 2021

Learning distinct features helps, provably

295

10 Jun 2021