v1v2v3 (latest)

Optimization Methods for Large-Scale Machine Learning

15 June 2016

Papers citing "Optimization Methods for Large-Scale Machine Learning"

50 / 1,490 papers shown

A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent

Mingze Wang

Lei Wu

435

01 Oct 2023

Robust Stochastic Optimization via Gradient Quantile Clipping

Ibrahim Merad

Stéphane Gaïffas

201

29 Sep 2023

High Throughput Training of Deep Surrogates from Large Ensemble RunsInternational Conference for High Performance Computing, Networking, Storage and Analysis (SC), 2023

179

28 Sep 2023

Enhancing Sharpness-Aware Optimization Through Variance SuppressionNeural Information Processing Systems (NeurIPS), 2023

Bingcong Li

G. Giannakis

AAML

453

27 Sep 2023

Revisiting LARS for Large Batch Training Generalization of Neural NetworksIEEE Transactions on Artificial Intelligence (IEEE TAI), 2023

354

25 Sep 2023

Robust Distributed Learning: Tight Error Bounds and Breakdown Point under Data HeterogeneityNeural Information Processing Systems (NeurIPS), 2023

289

24 Sep 2023

A Novel Gradient Methodology with Economical Objective Function Evaluations for Data Science Applications

Christian Varner

Vivak Patel

363

19 Sep 2023

A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale

258

12 Sep 2023

Derivation of Coordinate Descent Algorithms from Optimal Control Theory

I. Michael Ross

07 Sep 2023

Backward error analysis and the qualitative behaviour of stochastic optimization algorithms: Application to stochastic coordinate descentJournal of Computational Dynamics (J. Comput. Dyn.), 2023

Stefano Di Giovacchino

D. Higham

K. Zygalakis

179

05 Sep 2023

Majorization-Minimization for sparse SVMs

139

31 Aug 2023

Model-free Reinforcement Learning with Stochastic Reward Stabilization for Recommender SystemsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

176

25 Aug 2023

SGMM: Stochastic Approximation to Generalized Method of Moments

169

25 Aug 2023

We Don't Need No Adam, All We Need Is EVE: On The Variance of Dual Learning Rate And Beyond

A. Khadangi

ODL

238

21 Aug 2023

Towards Understanding the Generalizability of Delayed Stochastic Gradient DescentIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

351

18 Aug 2023

Max-affine regression via first-order methodsSIAM Journal on Mathematics of Data Science (SIMODS), 2023

Seonho Kim

Kiryung Lee

154

15 Aug 2023

Quantile Optimization via Multiple Timescale Local Search for Black-box FunctionsOperational Research (OR), 2023

Jiaqiao Hu

Meichen Song

Michael Fu

15 Aug 2023

Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance ReductionNeural Information Processing Systems (NeurIPS), 2023

Xiao-Yan Jiang

Sebastian U. Stich

243

11 Aug 2023

Almost-sure convergence of iterates and multipliers in stochastic sequential quadratic optimizationJournal of Optimization Theory and Applications (JOTA), 2023

Frank E. Curtis

Xin Jiang

Qi Wang

191

07 Aug 2023

Eva: A General Vectorized Approximation Framework for Second-order Optimization

Lin Zhang

Shaoshuai Shi

Yue Liu

221

04 Aug 2023

Hierarchical Federated Learning in Wireless Networks: Pruning Tackles Bandwidth Scarcity and System HeterogeneityIEEE Transactions on Wireless Communications (IEEE TWC), 2023

Md Ferdous Pervej

Richeng Jin

H. Dai

357

03 Aug 2023

From continuous-time formulations to discretization schemes: tensor trains and robust regression for BSDEs and parabolic PDEsJournal of machine learning research (JMLR), 2023

Lorenz Richter

Leon Sallandt

Nikolas Nusken

195

28 Jul 2023

The Marginal Value of Momentum for Small Learning Rate SGDInternational Conference on Learning Representations (ICLR), 2023

Tianhao Wang

242

27 Jul 2023

High Probability Analysis for Non-Convex Stochastic Optimization with ClippingEuropean Conference on Artificial Intelligence (ECAI), 2023

Shaojie Li

Yong Liu

220

25 Jul 2023

Federated Distributionally Robust Optimization with Non-Convex Objectives: Algorithm and AnalysisIEEE Transactions on Mobile Computing (IEEE TMC), 2023

Yang Jiao

Kai Yang

Dongjin Song

351

25 Jul 2023

Convergence of Adam for Non-convex Objectives: Relaxed Hyperparameters and Non-ergodic CaseMachine-mediated learning (ML), 2023

235

20 Jul 2023

Enhancing Supervised Learning with Contrastive Markings in Neural Machine Translation TrainingEuropean Association for Machine Translation Conferences/Workshops (EAMT), 2023

238

17 Jul 2023

Decentralized Local Updates with Dual-Slow Estimation and Momentum-based Variance-Reduction for Non-Convex OptimizationEuropean Conference on Artificial Intelligence (ECAI), 2023

Xiang Li

127

17 Jul 2023

Weighted Averaged Stochastic Gradient Descent: Asymptotic Normality and Optimality

Ziyang Wei

Wanrong Zhu

Wei Biao Wu

353

13 Jul 2023

Transgressing the boundaries: towards a rigorous understanding of deep learning and its (non-)robustness

C. Hartmann

Lorenz Richter

AAML

206

05 Jul 2023

TablEye: Seeing small Tables through the Lens of Images

Seungeun Lee

Sang-Chul Lee

LMTD

244

04 Jul 2023

Systematic Investigation of Sparse Perturbed Sharpness-Aware Minimization OptimizerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Li Shen

256

30 Jun 2023

Training Deep Surrogate Models with Large Scale Online LearningInternational Conference on Machine Learning (ICML), 2023

181

28 Jun 2023

G-TRACER: Expected Sharpness Optimization

John R. Williams

Stephen J. Roberts

148

24 Jun 2023

Efficient preconditioned stochastic gradient descent for estimation in latent variable modelsInternational Conference on Machine Learning (ICML), 2023

148

22 Jun 2023

Don't be so Monotone: Relaxing Stochastic Line Search in Over-Parameterized ModelsNeural Information Processing Systems (NeurIPS), 2023

Leonardo Galli

Holger Rauhut

Mark Schmidt

215

22 Jun 2023

Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective and Improved Bounds

250

21 Jun 2023

MimiC: Combating Client Dropouts in Federated Learning by Mimicking Central UpdatesIEEE Transactions on Mobile Computing (IEEE TMC), 2023

263

21 Jun 2023

Adaptive Federated Learning with Auto-Tuned ClientsInternational Conference on Learning Representations (ICLR), 2023

Junhyung Lyle Kim

Taha Toghani

César A. Uribe

Anastasios Kyrillidis

FedML

557

19 Jun 2023

Bootstrapped Representations in Reinforcement LearningInternational Conference on Machine Learning (ICML), 2023

Stephen Tu

254

16 Jun 2023

Schema-learning and rebinding as mechanisms of in-context learning and emergenceNeural Information Processing Systems (NeurIPS), 2023

Siva K. Swaminathan

Antoine Dedieu

Rajkumar Vasudeva Raju

Murray Shanahan

Miguel Lazaro-Gredilla

Dileep George

223

16 Jun 2023

Understanding Optimization of Deep Learning via Jacobian Matrix and Lipschitz Constant

Xianbiao Qi

Jianan Wang

Lei Zhang

212

15 Jun 2023

Robustly Learning a Single Neuron via SharpnessInternational Conference on Machine Learning (ICML), 2023

188

13 Jun 2023

GQFedWAvg: Optimization-Based Quantized Federated Learning in General Edge Computing SystemsIEEE Transactions on Wireless Communications (IEEE TWC), 2023

253

13 Jun 2023

Analysis of the Relative Entropy Asymmetry in the Regularization of Empirical Risk MinimizationInternational Symposium on Information Theory (ISIT), 2023

248

12 Jun 2023

Straggler-Resilient Decentralized Learning via Adaptive Asynchronous UpdatesACM Interational Symposium on Mobile Ad Hoc Networking and Computing (MobiHoc), 2023

260

11 Jun 2023

Improving Accelerated Federated Learning with Compression and Importance Sampling

280

05 Jun 2023

Integrated Sensing, Computation, and Communication for UAV-assisted Federated Edge LearningIEEE Transactions on Wireless Communications (IEEE TWC), 2023

Guangxu Zhu

171

05 Jun 2023

Decentralized SGD and Average-direction SAM are Asymptotically EquivalentInternational Conference on Machine Learning (ICML), 2023

663

05 Jun 2023

Toward Understanding Why Adam Converges Faster Than SGD for Transformers

Yan Pan

Yuanzhi Li

304

31 May 2023