v1v2 (latest)

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

15 September 2016

Papers citing "On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima"

50 / 1,653 papers shown

MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge TransferNeural Information Processing Systems (NeurIPS), 2024

257

14 Oct 2024

What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian AnalysisInternational Conference on Learning Representations (ICLR), 2024

Weronika Ormaniec

Felix Dangel

Sidak Pal Singh

544

14 Oct 2024

Sharpness-Aware Minimization Efficiently Selects Flatter Minima Late in TrainingInternational Conference on Learning Representations (ICLR), 2024

479

14 Oct 2024

How Learning Dynamics Drive Adversarially Robust Generalization?

Yuelin Xu

Xiao Zhang

AAML

408

10 Oct 2024

OledFL: Unleashing the Potential of Decentralized Federated Learning via Opposite Lookahead Enhancement

Mengzhu Wang

Li Shen

235

09 Oct 2024

QT-DoG: Quantization-aware Training for Domain Generalization

333

08 Oct 2024

Extended convexity and smoothness and their applications in deep learning

Binchuan Qi

Wei Gong

Li Li

430

08 Oct 2024

Incremental Learning for Robot Shared Autonomy

411

08 Oct 2024

Improved Sample Complexity for Private Nonsmooth Nonconvex Optimization

Guy Kornowski

Daogao Liu

Kunal Talwar

235

08 Oct 2024

Intriguing Properties of Large Language and Vision Models

292

07 Oct 2024

Improving Generalization with Flat Hilbert Bayesian Inference

442

05 Oct 2024

Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks

184

03 Oct 2024

Dynamic Sparse Training versus Dense Training: The Unexpected Winner in Image Corruption RobustnessInternational Conference on Learning Representations (ICLR), 2024

Decebal Constantin Mocanu

Elena Mocanu

OOD 3DH

514

03 Oct 2024

Revisiting Video Quality Assessment from the Perspective of Generalization

Xinli Yue

Jianhui Sun

Liangchao Yao

Fan Xia

Yuetang Deng

...

Jing Lv

198

23 Sep 2024

Bilateral Sharpness-Aware Minimization for Flatter Minima

Jiaxin Deng

Junbiao Pang

Baochang Zhang

Qingming Huang

AAML

936

20 Sep 2024

Hidden Activations Are Not Enough: A General Approach to Neural Network Predictions

Samuel Leblanc

Aiky Rasolomanana

Marco Armenta

228

20 Sep 2024

Efficient Training of Deep Neural Operator Networks via Randomized Sampling

Sharmila Karumuri

Lori Graham-Brady

Somdatta Goswami

243

20 Sep 2024

Convergence of Sharpness-Aware Minimization Algorithms using Increasing Batch Size and Decaying Learning Rate

Hinata Harada

Hideaki Iiduka

259

16 Sep 2024

WaterMAS: Sharpness-Aware Maximization for Neural Network WatermarkingInternational Conference on Pattern Recognition (ICPR), 2024

230

05 Sep 2024

Improving Robustness to Multiple Spurious Correlations by Multi-Objective OptimizationInternational Conference on Machine Learning (ICML), 2024

Nayeong Kim

Juwon Kang

Sungsoo Ahn

Jungseul Ok

Suha Kwak

236

05 Sep 2024

CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP ModelsNetwork and Distributed System Security Symposium (NDSS), 2024

Rui Zeng

Xi Chen

Yuwen Pu

Xuhong Zhang

Tianyu Du

Shouling Ji

356

02 Sep 2024

Fisher Information guided Purification against Backdoor AttacksConference on Computer and Communications Security (CCS), 2024

329

01 Sep 2024

Deep Learning to Predict Late-Onset Breast Cancer Metastasis: the Single Hyperparameter Grid Search (SHGS) Strategy for Meta Tuning Concerning Deep Feed-forward Neural Network

Yijun Zhou

Om Arora-Jain

Xia Jiang

OOD

234

28 Aug 2024

Can Optimization Trajectories Explain Multi-Task Transfer?

David Mueller

Mark Dredze

Nicholas Andrews

397

26 Aug 2024

Weight Scope Alignment: A Frustratingly Easy Method for Model MergingEuropean Conference on Artificial Intelligence (ECAI), 2024

293

22 Aug 2024

A Noncontact Technique for Wave Measurement Based on Thermal Stereography and Deep LearningIEEE Transactions on Instrumentation and Measurement (IEEE Trans. Instrum. Meas.), 2024

229

20 Aug 2024

Enhancing Adversarial Transferability with Adversarial Weight TuningAAAI Conference on Artificial Intelligence (AAAI), 2024

353

18 Aug 2024

Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition

Kenzo Clauw

S. Stramaglia

Daniele Marinazzo

204

16 Aug 2024

Rubick: Exploiting Job Reconfigurability for Deep Learning Cluster Scheduling

Xinyi Zhang

Wei Lin

Fangming Liu

150

16 Aug 2024

Enhancing Sharpness-Aware Minimization by Learning Perturbation Radius

Yu Zhang

244

15 Aug 2024

Implicit Neural Representation For Accurate CFD Flow Field Prediction

291

12 Aug 2024

Do Sharpness-based Optimizers Improve Generalization in Medical Image Analysis?IEEE Access (IEEE Access), 2024

Mohamed Hassan

Aleksandar Vakanski

Min Xian

AAML MedIm

387

07 Aug 2024

Exploring Loss Landscapes through the Lens of Spin Glass Theory

248

30 Jul 2024

Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning

Dennis Chemnitz

Maximilian Engel

278

29 Jul 2024

Local vs Global continual learning

259

23 Jul 2024

Sharpness-diversity tradeoff: improving flat ensembles with SharpBalance

Yujun Yan

Huanrui Yang

Yaoqing Yang

196

17 Jul 2024

Overcoming Catastrophic Forgetting in Federated Class-Incremental Learning via Federated Global Twin Generator

210

13 Jul 2024

Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis

Stefan Horoi

Albert Manuel Orozco Camacho

Eugene Belilovsky

Guy Wolf

FedML MoMe

225

07 Jul 2024

Multimodal Classification via Modal-Aware Interactive Enhancement

Qing-Yuan Jiang

Zhouyang Chi

Yang Yang

227

05 Jul 2024

Simplifying Deep Temporal Difference Learning

612

05 Jul 2024

PaSE: Parallelization Strategies for Efficient DNN Training

Venmugil Elango

161

04 Jul 2024

Bias of Stochastic Gradient Descent or the Architecture: Disentangling the Effects of Overparameterization of Neural Networks

Amit Peleg

Matthias Hein

279

04 Jul 2024

Curvature Clues: Decoding Deep Learning Privacy with Input Loss Curvature

Deepak Ravikumar

Efstathia Soufleri

Kaushik Roy

180

03 Jul 2024

Enhancing Accuracy and Parameter-Efficiency of Neural Representations for Network Parameterization

Hongjun Choi

Jayaraman J. Thiagarajan

Ruben Glatt

Shusen Liu

334

29 Jun 2024

On the Trade-off between Flatness and Optimization in Distributed Learning

470

28 Jun 2024

On Scaling Up 3D Gaussian Splatting TrainingInternational Conference on Learning Representations (ICLR), 2024

298

26 Jun 2024

MAGIC: Meta-Ability Guided Interactive Chain-of-Distillation for Effective-and-Efficient Vision-and-Language Navigation

330

25 Jun 2024

Improving robustness to corruptions with multiplicative weight perturbations

216

24 Jun 2024

MD tree: a model-diagnostic tree grown on loss landscape

296

24 Jun 2024

Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution

Naoki Yoshida

Shogo H. Nakakita

Masaaki Imaizumi

253

23 Jun 2024