Staged Training for Transformer Language Models

International Conference on Machine Learning (ICML), 2022

11 March 2022

Pete Walsh

ArXiv (abs)PDF HTML Github (32★)

Papers citing "Staged Training for Transformer Language Models"

37 / 37 papers shown

Efficient-Husformer: Efficient Multimodal Transformer Hyperparameter Optimization for Stress and Cognitive Loads

Merey Orazaly

Fariza Temirkhanova

Jurn-Gyu Park

27 Nov 2025

Deep Progressive Training: scaling up depth capacity of zero/one-layer models

Zhiqi Bu

AI4CE

133

07 Nov 2025

SCALE: Upscaled Continual Learning of Large Language Models

...

514

05 Nov 2025

ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters

234

21 Oct 2025

Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

145

09 Oct 2025

Mid-Training of Large Language Models: A Survey

152

08 Oct 2025

Sparse Training Scheme for Multimodal LLM

118

16 Sep 2025

Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study

...

04 Sep 2025

LongCat-Flash Technical Report

...

425

01 Sep 2025

Progressive Depth Up-scaling via Optimal Transport

Mingzi Cao

Xi Wang

Nikolaos Aletras

11 Aug 2025

Frozen Layers: Memory-efficient Many-fidelity Hyperparameter Optimization

Timur Carstensen

Neeratyoy Mallik

Katharina Eggensperger

Martin Rapp

AI4CE

335

14 Apr 2025

STEP: Staged Parameter-Efficient Pre-training for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

298

05 Apr 2025

Stacking as Accelerated Gradient Descent

280

20 Feb 2025

Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic TeacherInternational Conference on Learning Representations (ICLR), 2024

Yong Guo

Yulun Zhang

269

05 Oct 2024

Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Mohammad Samragh

Iman Mirzadeh

Keivan Alizadeh Vahid

Fartash Faghri

Mehrdad Farajtabar

322

19 Sep 2024

DLO: Dynamic Layer Operation for Efficient Vertical Scaling of LLMs

207

03 Jul 2024

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

Ju He

Alan Yuille

173

28 Jun 2024

Landscape-Aware Growing: The Power of a Little LAG

268

04 Jun 2024

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

220

24 May 2024

A Multi-Level Framework for Accelerating Training Transformer Models

284

07 Apr 2024

Efficient Stagewise Pretraining via Progressive Subnetworks

Sanjiv Kumar

189

08 Feb 2024

HiFT: A Hierarchical Full Parameter Fine-Tuning StrategyConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Shi Feng

305

26 Jan 2024

Preparing Lessons for Progressive Training on Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Lifeng Shang

Xin Jiang

Qun Liu

269

17 Jan 2024

LLaMA Pro: Progressive LLaMA with Block Expansion

Zeyu Lu

Ying Shan

Ping Luo

CLL

241

04 Jan 2024

Navigating Scaling Laws: Compute Optimality in Adaptive Model TrainingInternational Conference on Machine Learning (ICML), 2023

354

06 Nov 2023

Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric PerspectiveInternational Conference on Learning Representations (ICLR), 2023

367

17 Oct 2023

Reusing Pretrained Models by Multi-linear Operators for Efficient Training

Lifeng Shang

Xin Jiang

Qun Liu

257

16 Oct 2023

LEMON: Lossless model expansionInternational Conference on Learning Representations (ICLR), 2023

Jianbo Yuan

Hongxia Yang

224

12 Oct 2023

FLM-101B: An Open LLM and How to Train It with $100K Budget

Xiang Li

Yiqun Yao

Xin Jiang

Xuezhi Fang

...

463

07 Sep 2023

Composable Function-preserving Expansions for Transformer Architectures

Andrea Gesmundo

Kaitlin Maile

AI4CE

257

11 Aug 2023

No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language ModelsNeural Information Processing Systems (NeurIPS), 2023

439

12 Jul 2023

Deep Fusion: Efficient Network Training via Pre-trained InitializationsInternational Conference on Machine Learning (ICML), 2023

526

20 Jun 2023

Masked Structural Growth for 2x Faster Language Model Pre-trainingInternational Conference on Learning Representations (ICLR), 2023

Yequan Wang

314

04 May 2023

Learning to Grow Pretrained Models for Efficient Transformer TrainingInternational Conference on Learning Representations (ICLR), 2023

Peihao Wang

Yikang Shen

Lucas Torroba Hennigen

203

02 Mar 2023

Cramming: Training a Language Model on a Single GPU in One DayInternational Conference on Machine Learning (ICML), 2022

Jonas Geiping

Tom Goldstein

MoE

276

103

28 Dec 2022

Sparse Upcycling: Training Mixture-of-Experts from Dense CheckpointsInternational Conference on Learning Representations (ICLR), 2022

Joshua Ainslie

239

170

09 Dec 2022

Random-LTD: Random and Layerwise Token Dropping Brings Efficient Training for Large-scale Transformers

Yuxiong He

192

17 Nov 2022