Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

11 April 2018

Papers citing "Adafactor: Adaptive Learning Rates with Sublinear Memory Cost"

50 / 799 papers shown

MetricX-24: The Google Submission to the WMT 2024 Metrics Shared TaskConference on Machine Translation (WMT), 2024

Juraj Juraska

Daniel Deutsch

Mara Finkelstein

Markus Freitag

255

04 Oct 2024

What Matters for Model Merging at Scale?

Prateek Yadav

Tu Vu

Jonathan Lai

Alexandra Chronopoulou

Manaal Faruqui

Joey Tianyi Zhou

Tsendsuren Munkhdalai

MoMe

273

04 Oct 2024

MELODI: Exploring Memory Compression for Long ContextsInternational Conference on Learning Representations (ICLR), 2024

194

04 Oct 2024

CorPipe at CRAC 2024: Predicting Zero Mentions from Raw Text

Milan Straka

LRM

206

03 Oct 2024

On the Inductive Bias of Stacking Towards Improving ReasoningNeural Information Processing Systems (NeurIPS), 2024

294

27 Sep 2024

Whisper in Medusa's Ear: Multi-head Efficient Decoding for Transformer-based ASR

181

24 Sep 2024

SOAP: Improving and Stabilizing Shampoo using Adam

530

17 Sep 2024

Propulsion: Steering LLM with Tiny Fine-TuningInternational Conference on Computational Linguistics (COLING), 2024

Md. Kowsher

Nusrat Jahan Prottasha

Prakash Bhat

294

17 Sep 2024

Exploring Foundation Models for Synthetic Medical Imaging: A Study on Chest X-Rays and Fine-Tuning Techniques

Davide Clode da Silva

Marina Musse Bernardes

Nathalia Giacomini Ceretta

Gabriel Vaz de Souza

Gabriel Fonseca Silva

Rafael Heitor Bordini

S. Musse

MedIm LM&MA

153

06 Sep 2024

Open Language Data Initiative: Advancing Low-Resource Machine Translation for KarakalpakConference on Machine Translation (WMT), 2024

Mukhammadsaid Mamasaidov

Abror Shopulatov

VLM

113

06 Sep 2024

The AdEMAMix Optimizer: Better, Faster, OlderInternational Conference on Learning Representations (ICLR), 2024

Matteo Pagliardini

Pierre Ablin

David Grangier

ODL

335

05 Sep 2024

NeuralOOD: Improving Out-of-Distribution Generalization Performance with Brain-machine Fusion Learning Framework

Shuangchen Zhao

Changde Du

Hui Li

Huiguang He

161

27 Aug 2024

Diffusion Models Are Real-Time Game EnginesInternational Conference on Learning Representations (ICLR), 2024

541

158

27 Aug 2024

FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask EvaluationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Garrett Tanzer

SLR VLM

226

24 Aug 2024

Memory-Efficient LLM Training with Online Subspace DescentNeural Information Processing Systems (NeurIPS), 2024

Kaizhao Liang

Bo Liu

Lizhang Chen

Qiang Liu

237

23 Aug 2024

Data-Centric Approach to Constrained Machine Learning: A Case Study on Conway's Game of Life

A. Bibin

Anton Dereventsov

140

23 Aug 2024

Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian

216

20 Aug 2024

Instruction Finetuning for Leaderboard Generation from Empirical AI Research

Salomon Kabongo

Jennifer D'Souza

ALM

196

19 Aug 2024

Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions

228

15 Aug 2024

Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability

Jiri Hron

Laura J. Culp

Gamaleldin F. Elsayed

...

167

14 Aug 2024

MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic ExpertsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

224

02 Aug 2024

What comes after transformers? -- A selective survey connecting ideas in deep learning

Johannes Schneider

AI4CE

423

01 Aug 2024

Maverick: Efficient and Accurate Coreference Resolution Defying Recent Trends

Giuliano Martinelli

Martin Larsson

Johannes Wiesel

225

31 Jul 2024

Exploring the Effectiveness and Consistency of Task Selection in Intermediate-Task Transfer Learning

219

23 Jul 2024

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines

Sanjiv Kumar

Andrej Risteski

314

22 Jul 2024

MINI-SEQUENCE TRANSFORMER: Optimizing Intermediate Memory for Long Sequences Training

279

22 Jul 2024

MASIVE: Open-Ended Affective State Identification in English and Spanish

Kathleen McKeown

175

16 Jul 2024

Scaling Sign Language Translation

238

16 Jul 2024

Self-training Language Models for Arithmetic Reasoning

Marek Kadlcík

Michal Štefánik

KELM ReLM OffRL LRM

166

11 Jul 2024

Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

Ajay Jaiswal

Jiawei Zhao

Zhangyang Wang

204

11 Jul 2024

Fine-Tuning Large Language Models with User-Level Differential Privacy

Zachary Charles

297

10 Jul 2024

Deconstructing What Makes a Good Optimizer for Language Models

454

10 Jul 2024

InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

Di Huang

Wei Wang

...

Xing Hu

214

08 Jul 2024

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

Sungkyun Chang

Emmanouil Benetos

Holger Kirchhoff

Simon Dixon

308

05 Jul 2024

LoCo: Low-Bit Communication Adaptor for Large-scale Model Training

234

05 Jul 2024

Neurocache: Efficient Vector Retrieval for Long-range Language Modeling

Ali Safaya

Deniz Yuret

212

02 Jul 2024

LoPT: Low-Rank Prompt Tuning for Parameter Efficient Language Models

147

27 Jun 2024

Fast Optimizer Benchmark

Simon Blauth

Tobias Bürger

Zacharias Häringer

Jörg Franke

Katharina Eggensperger

148

26 Jun 2024

Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients

261

25 Jun 2024

Adam-mini: Use Fewer Learning Rates To Gain More

Zhi-Quan Luo

457

24 Jun 2024

H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian DescentInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Son Nguyen

Lizhang Chen

Bo Liu

Qiang Liu

312

14 Jun 2024

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

243

10 Jun 2024

PPPR: Portable Plug-in Prompt Refiner for Text to Audio GenerationInterspeech (Interspeech), 2024

...

Yongwei Li

Xiaopeng Wang

172

07 Jun 2024

Exploring the Latest LLMs for Leaderboard Extraction

Salomon Kabongo

Jennifer D'Souza

Sören Auer

195

06 Jun 2024

USM RNN-T model weights binarization

Oleg Rybakov

Dmitriy Serdyuk

Chengjian Zheng

325

05 Jun 2024

Item-Language Model for Conversational Recommendation

228

05 Jun 2024

LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster Imagery

Samuel Scheele

Katherine Picchione

Jeffrey Liu

143

04 Jun 2024

Landscape-Aware Growing: The Power of a Little LAG

268

04 Jun 2024

SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining

Wei Huang

296

04 Jun 2024

Selectively Answering Visual Questions

Julian Martin Eisenschlos

Hernán Maina

Guido Ivetta

Luciana Benotti

249

03 Jun 2024