v1v2v3 (latest)

Optimization Methods for Large-Scale Machine Learning

15 June 2016

Papers citing "Optimization Methods for Large-Scale Machine Learning"

50 / 1,490 papers shown

FedNS: A Fast Sketching Newton-Type Algorithm for Federated Learning

Jian Li

277

05 Jan 2024

Online Continual Domain Adaptation for Semantic Image Segmentation Using Internal Representations

Serban Stan

Mohammad Rostami

OOD CLL

243

02 Jan 2024

SANIA: Polyak-type Optimization Framework Leads to Scale Invariant Stochastic Algorithms

297

28 Dec 2023

Parallel Trust-Region Approaches in Neural Network Training: Beyond Traditional Methods

Ken Trotti

Samuel A. Cruz Alegría

Alena Kopanicáková

Rolf Krause

218

21 Dec 2023

Continual Learning: Forget-free Winning Subnetworks for Video Representations

533

19 Dec 2023

DePRL: Achieving Linear Convergence Speedup in Personalized Decentralized Learning with Shared Representations

302

17 Dec 2023

Physics-Informed Deep Learning of Rate-and-State Fault FrictionComputer Methods in Applied Mechanics and Engineering (CMAME), 2023

Cody Rucker

Brittany A. Erickson

PINN AI4CE

268

14 Dec 2023

Layered Randomized Quantization for Communication-Efficient and Privacy-Preserving Distributed Learning

Linqi Song

262

12 Dec 2023

LDL^T

Trust-Region Quasi-Newton Method

John Brust

Philip E. Gill

11 Dec 2023

ELSA: Partial Weight Freezing for Overhead-Free Sparse Network Deployment

Paniz Halvachi

Alexandra Peste

Dan Alistarh

Christoph H. Lampert

182

11 Dec 2023

Fake It Till Make It: Federated Learning with Consensus-Oriented Generation

Rui Ye

Siheng Chen

184

10 Dec 2023

TaskMet: Task-Driven Metric Learning for Model LearningNeural Information Processing Systems (NeurIPS), 2023

264

08 Dec 2023

Convergence Rates for Stochastic Approximation: Biased Noise with Unbounded Variance, and ApplicationsJournal of Optimization Theory and Applications (JOTA), 2023

Rajeeva Laxman Karandikar

M. Vidyasagar

353

05 Dec 2023

A New Random Reshuffling Method for Nonsmooth Nonconvex Finite-sum Optimization

Junwen Qiu

Xiao Li

Andre Milzarek

598

02 Dec 2023

On Adaptive Stochastic Optimization for Streaming Data: A Newton's Method with O(dN) Operations

Antoine Godichon-Baggioni

Nicklas Werge

ODL

281

29 Nov 2023

Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent

283

28 Nov 2023

SensLI: Sensitivity-Based Layer Insertion for Neural Networks

208

27 Nov 2023

Transformer-based Named Entity Recognition in Construction Supply Chain Risk Management in AustraliaIEEE Access (IEEE Access), 2023

Milad Baghalzadeh Shishehgarkhaneh

267

23 Nov 2023

Soft Random Sampling: A Theoretical and Empirical Analysis

275

21 Nov 2023

Infinite forecast combinations based on Dirichlet process

172

21 Nov 2023

High Probability Guarantees for Random Reshuffling

Hengxu Yu

Xiao Li

295

20 Nov 2023

Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling

Naoki Sato

Hideaki Iiduka

390

15 Nov 2023

Non-Uniform Smoothness for Gradient Descent

A. Berahas

Lindon Roberts

Fred Roosta

168

15 Nov 2023

Robust softmax aggregation on blockchain based federated learning with convergence guarantee

Huiyu Wu

Diego Klabjan

FedML

267

13 Nov 2023

Differentiable Cutting-plane Layers for Mixed-integer Linear Optimization

519

06 Nov 2023

Parameter-Agnostic Optimization under Relaxed SmoothnessInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Florian Hübler

Junchi Yang

Xiang Li

Niao He

265

06 Nov 2023

Signal Processing Meets SGD: From Momentum to Filter

669

06 Nov 2023

High Probability Convergence of Adam Under Unbounded Gradients and Affine Variance Noise

Yusu Hong

Junhong Lin

241

03 Nov 2023

Learning to optimize by multi-gradient for multi-objective optimization

Linxi Yang

Xinmin Yang

L. Tang

267

01 Nov 2023

Information-Theoretic Trust Regions for Stochastic Gradient-Based Optimization

Philipp Dahlinger

P. Becker

Maximilian Hüttenrauch

Gerhard Neumann

145

31 Oct 2023

High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise

704

28 Oct 2023

Optimization of utility-based shortfall risk: A non-asymptotic viewpointIEEE Conference on Decision and Control (CDC), 2023

Sumedh Gupte

A. PrashanthL.

Sanjay P. Bhat

180

28 Oct 2023

Contextual Stochastic Bilevel OptimizationNeural Information Processing Systems (NeurIPS), 2023

Yao Xie

239

27 Oct 2023

Performative Prediction: Past and FutureStatistical Science (Statist. Sci.), 2023

Moritz Hardt

Celestine Mendler-Dünner

420

25 Oct 2023

Rethinking SIGN Training: Provable Nonconvex Acceleration without First- and Second-Order Gradient Lipschitz

Tao Sun

Congliang Chen

Peng Qiao

Li Shen

Xinwang Liu

Dongsheng Li

192

23 Oct 2023

Graph Neural Networks and Applied Linear Algebra

246

21 Oct 2023

Exponential weight averaging as damped harmonic motion

J. Patsenker

Henry Li

Y. Kluger

186

20 Oct 2023

DYNAMITE: Dynamic Interplay of Mini-Batch Size and Aggregation Frequency for Federated Learning with Static and Streaming Dataset

Xu Chen

244

20 Oct 2023

Demystifying the Myths and Legends of Nonconvex Convergence of SGD

270

19 Oct 2023

LASER: Linear Compression in Wireless Distributed Optimization

Ashok Vardhan Makkuva

394

19 Oct 2023

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language ModelsInternational Conference on Machine Learning (ICML), 2023

Ziniu Li

481

138

16 Oct 2023

Over-the-Air Federated Learning and Optimization

458

16 Oct 2023

Federated Multi-Objective Learning

Haibo Yang

327

15 Oct 2023

Fast Sampling and Inference via Preconditioned Langevin Dynamics

Riddhiman Bhattacharya

Tiefeng Jiang

155

11 Oct 2023

Quantum Shadow Gradient Descent for Quantum Learning

169

10 Oct 2023

Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled Gradient Descent, Even with Overparameterization

304

09 Oct 2023

Learning Layer-wise Equivariances Automatically using GradientsNeural Information Processing Systems (NeurIPS), 2023

Tycho F. A. van der Ouderaa

Alexander Immer

Mark van der Wilk

MLT

311

09 Oct 2023

On the Parallel Complexity of Multilevel Monte Carlo in Stochastic Gradient Descent

Kei Ishikawa

BDL

226

03 Oct 2023

Epidemic Learning: Boosting Decentralized Learning with Randomized CommunicationNeural Information Processing Systems (NeurIPS), 2023

310

03 Oct 2023

Batch-less stochastic gradient descent for compressive learning of deep regularization for image denoisingJournal of Mathematical Imaging and Vision (JMIV), 2023

Hui Shi

Yann Traonmilin

Jean-François Aujol

176

02 Oct 2023