Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1901.09401
Cited By

SGD: General Analysis and Improved Rates

v1v2v3v4 (latest)

SGD: General Analysis and Improved Rates

27 January 2019

Robert Mansel Gower

Alibek Sailanbayev

Peter Richtárik

ArXiv (abs)PDF HTML

Papers citing "SGD: General Analysis and Improved Rates"

50 / 238 papers shown

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving

214

2

0

27 Nov 2025

SpectralTrain: A Universal Framework for Hyperspectral Image Classification

SpectralTrain: A Universal Framework for Hyperspectral Image Classification

256

0

0

20 Nov 2025

Bilevel Learning via Inexact Stochastic Gradient Descent

Bilevel Learning via Inexact Stochastic Gradient Descent

Mohammad Salehi

Subhadip Mukherjee

Matthias Joachim Ehrhardt

141

0

0

10 Nov 2025

Convergence Analysis of SGD under Expected Smoothness

Convergence Analysis of SGD under Expected Smoothness

187

0

0

23 Oct 2025

Second-order Optimization under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity Limits

Second-order Optimization under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity Limits

Abdurakhmon Sadiev

Peter Richtárik

Ilyas Fatkhullin

251

3

0

12 Oct 2025

DIVEBATCH: Accelerating Model Training Through Gradient-Diversity Aware Batch Size Adaptation

DIVEBATCH: Accelerating Model Training Through Gradient-Diversity Aware Batch Size Adaptation

212

0

0

19 Sep 2025

Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence

Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence

251

3

0

09 Sep 2025

Stochastic Gradient Descent with Strategic Querying

Stochastic Gradient Descent with Strategic Querying

164

0

0

23 Aug 2025

Towards Reliable and Generalizable Differentially Private Machine Learning (Extended Version)

Towards Reliable and Generalizable Differentially Private Machine Learning (Extended Version)

Vincent Bindschaedler

318

0

0

21 Aug 2025

Cooperative SGD with Dynamic Mixing Matrices

Cooperative SGD with Dynamic Mixing Matrices

248

0

0

20 Aug 2025

DGSAM: Domain Generalization via Individual Sharpness-Aware Minimization

DGSAM: Domain Generalization via Individual Sharpness-Aware Minimization

346

0

0

01 Jul 2025

Rapid training of Hamiltonian graph networks using random features

Rapid training of Hamiltonian graph networks using random features

313

0

0

06 Jun 2025

Towards Weaker Variance Assumptions for Stochastic Optimization

Towards Weaker Variance Assumptions for Stochastic Optimization

Ahmet Alacaoglu

Stephen J. Wright

252

11

0

14 Apr 2025

RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework

RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework

440

7

0

14 Apr 2025

Identifying Unknown Stochastic Dynamics via Finite expression methods

Identifying Unknown Stochastic Dynamics via Finite expression methods

530

0

0

09 Apr 2025

Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation

Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation

Robert M. Gower

Guillaume Garrigos

Dimitris Oikonomou

Konstantin Mishchenko

433

5

0

02 Apr 2025

BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems

BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems

Konstantin Burlachenko

Peter Richtárik

290

0

0

18 Mar 2025

Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization

Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization

725

50

0

16 Mar 2025

Sharpness-Aware Minimization: General Analysis and Improved Rates

Sharpness-Aware Minimization: General Analysis and Improved RatesInternational Conference on Learning Representations (ICLR), 2025

Dimitris Oikonomou

390

10

0

04 Mar 2025

SAPPHIRE: Preconditioned Stochastic Variance Reduction for Faster Large-Scale Statistical Learning

SAPPHIRE: Preconditioned Stochastic Variance Reduction for Faster Large-Scale Statistical Learning

Zachary Frangella

Madeleine Udell

308

3

0

28 Jan 2025

Random Reshuffling for Stochastic Gradient Langevin Dynamics

Random Reshuffling for Stochastic Gradient Langevin Dynamics

Peter A. Whalley

453

4

0

27 Jan 2025

A Unified Analysis of Federated Learning with Arbitrary Client Participation

A Unified Analysis of Federated Learning with Arbitrary Client ParticipationNeural Information Processing Systems (NeurIPS), 2022

746

80

0

31 Dec 2024

Memory-Reduced Meta-Learning with Guaranteed Convergence

Memory-Reduced Meta-Learning with Guaranteed ConvergenceAAAI Conference on Artificial Intelligence (AAAI), 2024

322

1

0

16 Dec 2024

Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for
large-scale optimization

Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization

Corrado Coppola

498

0

0

24 Nov 2024

Analysis of regularized federated learning

Analysis of regularized federated learning

177

4

0

03 Nov 2024

Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical
Framework for Low-Rank Adaptation

Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation

Grigory Malinovsky

Umberto Michieli

Peter Richtárik

358

13

0

10 Oct 2024

MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times

MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute TimesConference on Uncertainty in Artificial Intelligence (UAI), 2024

Artavazd Maranjyan

Omar Shaikh Omar

Peter Richtárik

327

4

0

05 Oct 2024

On the Convergence of FedProx with Extrapolation and Inexact Prox

On the Convergence of FedProx with Extrapolation and Inexact Prox

Peter Richtárik

320

6

0

02 Oct 2024

Enhancing Deep Learning with Optimized Gradient Descent: Bridging
Numerical Methods and Neural Network Training

Enhancing Deep Learning with Optimized Gradient Descent: Bridging Numerical Methods and Neural Network Training

Iris Li

169

9

0

07 Sep 2024

Large Batch Analysis for Adagrad Under Anisotropic Smoothness

Large Batch Analysis for Adagrad Under Anisotropic Smoothness

Tong Zhang

299

0

0

21 Jun 2024

Communication-Efficient Adaptive Batch Size Strategies for Distributed
Local Gradient Methods

Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods

Tim Tsz-Kit Lau

357

3

0

20 Jun 2024

A Generalized Version of Chung's Lemma and its Applications

A Generalized Version of Chung's Lemma and its Applications

278

2

0

09 Jun 2024

On Regularization via Early Stopping for Least Squares Regression

On Regularization via Early Stopping for Least Squares Regression

Rishi Sonthalia

279

7

0

06 Jun 2024

Stochastic Polyak Step-sizes and Momentum: Convergence Guarantees and Practical Performance

Stochastic Polyak Step-sizes and Momentum: Convergence Guarantees and Practical Performance

Dimitris Oikonomou

388

11

0

06 Jun 2024

Cohort Squeeze: Beyond a Single Communication Round per Cohort in
Cross-Device Federated Learning

Cohort Squeeze: Beyond a Single Communication Round per Cohort in Cross-Device Federated Learning

Peter Richtárik

341

2

0

03 Jun 2024

Demystifying SGD with Doubly Stochastic Gradients

Demystifying SGD with Doubly Stochastic Gradients

Jacob R. Gardner

470

2

0

03 Jun 2024

Decentralized Optimization in Time-Varying Networks with Arbitrary
Delays

Decentralized Optimization in Time-Varying Networks with Arbitrary Delays

Hamid Jafarkhani

250

2

0

29 May 2024

A Unified Theory of Stochastic Proximal Point Methods without Smoothness

A Unified Theory of Stochastic Proximal Point Methods without Smoothness

Peter Richtárik

Abdurakhmon Sadiev

Yury Demidovich

328

9

0

24 May 2024

Derivatives of Stochastic Gradient Descent

Derivatives of Stochastic Gradient Descent

Edouard Pauwels

270

1

0

24 May 2024

New logarithmic step size for stochastic gradient descent

New logarithmic step size for stochastic gradient descent

S. F. Hafshejani

274

3

0

01 Apr 2024

Large-Scale Non-convex Stochastic Constrained Distributionally Robust
Optimization

Large-Scale Non-convex Stochastic Constrained Distributionally Robust Optimization

Ashley Prater-Bennette

346

5

0

01 Apr 2024

A Selective Review on Statistical Methods for Massive Data Computation:
Distributed Computing, Subsampling, and Minibatch Techniques

A Selective Review on Statistical Methods for Massive Data Computation: Distributed Computing, Subsampling, and Minibatch Techniques

...

234

18

0

17 Mar 2024

Stochastic Extragradient with Random Reshuffling: Improved Convergence
for Variational Inequalities

Stochastic Extragradient with Random Reshuffling: Improved Convergence for Variational InequalitiesInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Konstantinos Emmanouilidis

219

6

0

11 Mar 2024

Streamlining in the Riemannian Realm: Efficient Riemannian Optimization
with Loopless Variance Reduction

Streamlining in the Riemannian Realm: Efficient Riemannian Optimization with Loopless Variance Reduction

Yury Demidovich

Grigory Malinovsky

Peter Richtárik

275

3

0

11 Mar 2024

On the Convergence of Federated Learning Algorithms without Data
Similarity

On the Convergence of Federated Learning Algorithms without Data Similarity

Ali Beikmohammadi

Sindri Magnússon

352

9

0

29 Feb 2024

Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning

Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning

Alexandru Meterez

Antonio Orvieto

269

1

0

27 Feb 2024

Revisiting Convergence of AdaGrad with Relaxed Assumptions

Revisiting Convergence of AdaGrad with Relaxed Assumptions

386

15

0

21 Feb 2024

Tuning-Free Stochastic Optimization

Tuning-Free Stochastic Optimization

321

13

0

12 Feb 2024

An Inexact Halpern Iteration with Application to Distributionally Robust Optimization

An Inexact Halpern Iteration with Application to Distributionally Robust Optimization

463

4

0

08 Feb 2024

AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size

AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size

Aigerim Zhumabayeva

Alexander Gasnikov

Dmitry Kamzolov

247

3

0

07 Feb 2024

Page 1 of 5