v1v2v3v4v5 (latest)

Steepest Descent Neural Architecture Optimization: Escaping Local Optimum with Signed Neural Splitting

23 March 2020

Papers citing "Steepest Descent Neural Architecture Optimization: Escaping Local Optimum with Signed Neural Splitting"

14 / 14 papers shown

Flat Channels to Infinity in Neural Loss Landscapes

300

17 Jun 2025

Learning Morphisms with Gauss-Newton Approximation for Growing Networks

Neal Lawton

Aram Galstyan

Greg Ver Steeg

205

07 Nov 2024

Unified Gradient-Based Machine Unlearning with Remain Geometry EnhancementNeural Information Processing Systems (NeurIPS), 2024

247

29 Sep 2024

Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural Architectures

120

19 Feb 2024

Preparing Lessons for Progressive Training on Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Lifeng Shang

Xin Jiang

Qun Liu

263

17 Jan 2024

When To Grow? A Fitting Risk-Aware Policy for Layer Growing in Deep Neural Networks

197

06 Jan 2024

Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model SplittingInternational Conference on Machine Learning (ICML), 2023

Huanrui Yang

Zhen Dong

Shanghang Zhang

213

14 Dec 2023

Reusing Pretrained Models by Multi-linear Operators for Efficient Training

Lifeng Shang

Xin Jiang

Qun Liu

248

16 Oct 2023

Accelerated Training via Incrementally Growing Neural Networks using Variance Transfer and Learning Rate AdaptationNeural Information Processing Systems (NeurIPS), 2023

Xin Yuan

Pedro H. P. Savarese

Michael Maire

164

22 Jun 2023

Sparsity Winning Twice: Better Robust Generalization from More Efficient TrainingInternational Conference on Learning Representations (ICLR), 2022

353

20 Feb 2022

GradMax: Growing Neural Networks using Gradient InformationInternational Conference on Learning Representations (ICLR), 2022

302

13 Jan 2022

bert2BERT: Towards Reusable Pretrained Language Models

Cheng Chen

Yichun Yin

Lifeng Shang

Xin Jiang

Zhiyuan Liu

Qun Liu

VLM

215

14 Oct 2021

Firefly Neural Architecture Descent: a General Approach for Growing Neural NetworksNeural Information Processing Systems (NeurIPS), 2021

211

17 Feb 2021

Greedy Optimization Provably Wins the Lottery: Logarithmic Number of Winning Tickets is EnoughNeural Information Processing Systems (NeurIPS), 2020

Mao Ye

Lemeng Wu

Qiang Liu

136

29 Oct 2020