Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

11 April 2018

Papers citing "Adafactor: Adaptive Learning Rates with Sublinear Memory Cost"

50 / 799 papers shown

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Xiaoxin He

Fuzhao Xue

Xiaozhe Ren

Yang You

325

01 Nov 2021

ÚFAL at MultiLexNorm 2021: Improving Multilingual Lexical Normalization by Fine-tuning ByT5

David Samuel

Milan Straka

143

28 Oct 2021

Applications and Techniques for Fast Machine Learning in ScienceFrontiers in Big Data (Front. Big Data), 2021

...

214

25 Oct 2021

Sharpness-Aware Minimization Improves Language Model Generalization

Dara Bahri

H. Mobahi

Yi Tay

477

117

16 Oct 2021

The Power of Prompt Tuning for Low-Resource Semantic Parsing

Nathan Schucher

Siva Reddy

H. D. Vries

VLM

236

16 Oct 2021

Improving Compositional Generalization with Self-Training for Data-to-Text Generation

248

16 Oct 2021

Control Prefixes for Parameter-Efficient Text Generation

Jordan Clive

Kris Cao

Marek Rei

267

15 Oct 2021

SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer

473

315

15 Oct 2021

LFPT5: A Unified Framework for Lifelong Few-shot Language Learning Based on Prompt Tuning of T5

Chengwei Qin

Shafiq Joty

CLL

402

122

14 Oct 2021

Vector-quantized Image Modeling with Improved VQGANInternational Conference on Learning Representations (ICLR), 2021

490

675

09 Oct 2021

8-bit Optimizers via Block-wise Quantization

Tim Dettmers

M. Lewis

Sam Shleifer

Luke Zettlemoyer

398

390

06 Oct 2021

Fast Contextual Adaptation with Neural Associative Memory for On-Device Personalized Speech Recognition

Tsendsuren Munkhdalai

224

05 Oct 2021

BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech RecognitionIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2021

...

220

196

27 Sep 2021

Beyond Distillation: Task-level Mixture-of-Experts for Efficient InferenceConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

1.2K

127

24 Sep 2021

Well Googled is Half Done: Multimodal Forecasting of New Fashion Product Sales with Image-based Google Trends

308

20 Sep 2021

Primer: Searching for Efficient Transformers for Language Modeling

401

184

17 Sep 2021

Scaling Laws for Neural Machine Translation

Colin Cherry

212

125

16 Sep 2021

ePiC: Employing Proverbs in Context as a Benchmark for Abstract Language Understanding

Sayan Ghosh

Shashank Srivastava

292

14 Sep 2021

STraTA: Self-Training with Task Augmentation for Better Few-shot Learning

410

13 Sep 2021

Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order Information

190

11 Sep 2021

PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Torsten Scholak

Nathan Schucher

Dzmitry Bahdanau

465

471

10 Sep 2021

ARMAN: Pre-training with Semantically Selecting and Reordering of Sentences for Persian Abstractive SummarizationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

134

09 Sep 2021

Smelting Gold and Silver for Improved Multilingual AMR-to-Text GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Leonardo F. R. Ribeiro

Jonas Pfeiffer

Yue Zhang

Iryna Gurevych

214

08 Sep 2021

FH-SWF SG at GermEval 2021: Using Transformer-Based Language Models to Identify Toxic, Engaging, & Fact-Claiming Comments

Tobias Bornheim

Stephan Bialonski

123

07 Sep 2021

Finetuned Language Models Are Zero-Shot Learners

1.7K

4,618

03 Sep 2021

Do Prompt-Based Models Really Understand the Meaning of their Prompts?

Albert Webson

Ellie Pavlick

LRM

429

426

02 Sep 2021

Effective Sequence-to-Sequence Dialogue State TrackingConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

230

31 Aug 2021

Injecting Text in Self-Supervised Speech PretrainingAutomatic Speech Recognition & Understanding (ASRU), 2021

Zhehuai Chen

Yu Zhang

Andrew Rosenberg

Bhuvana Ramabhadran

Gary Wang

Pedro J. Moreno

SSL

165

27 Aug 2021

Alleviating Exposure Bias via Contrastive Learning for Abstractive Text Summarization

Shichao Sun

Wenjie Li

126

26 Aug 2021

Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models

Jianmo Ni

Gustavo Hernández Ábrego

528

708

19 Aug 2021

How Optimal is Greedy Decoding for Extractive Question Answering?Conference on Automated Knowledge Base Construction (AKBC), 2021

202

12 Aug 2021

W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-TrainingAutomatic Speech Recognition & Understanding (ASRU), 2021

250

500

07 Aug 2021

Large-Scale Differentially Private BERT

245

148

03 Aug 2021

Towards Universality in Multilingual Text Rewriting

184

30 Jul 2021

Sequence-to-Sequence Piano Transcription with TransformersInternational Society for Music Information Retrieval Conference (ISMIR), 2021

334

19 Jul 2021

Deduplicating Training Data Makes Language Models Better

717

770

14 Jul 2021

XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 LanguagesFindings (Findings), 2021

314

449

25 Jun 2021

Black Box Variational Bayesian Model Averaging

Vojtech Kejzlar

Shrijita Bhattacharya

Mookyong Son

T. Maiti

BDL

222

23 Jun 2021

LocoProp: Enhancing BackProp via Local Loss OptimizationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2021

172

11 Jun 2021

Scaling Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2021

474

1,309

08 Jun 2021

Enriching Transformers with Structured Tensor-Product Representations for Abstractive SummarizationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

148

02 Jun 2021

A Multi-Level Attention Model for Evidence-Based Fact CheckingFindings (Findings), 2021

Canasai Kruengkrai

Junichi Yamagishi

Xin Wang

GNN

156

02 Jun 2021

PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D WorldAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Yejin Choi

314

01 Jun 2021

M6-T: Exploring Sparse Expert Models and Beyond

An Yang

Junyang Lin

Rui Men

Chang Zhou

...

Jingren Zhou

Hongxia Yang

MoE

367

31 May 2021

Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption ModelsWorkshop on Innovative Use of NLP for Building Educational Applications (UNBEA), 2021

Felix Stahlberg

Shankar Kumar

SyDa

220

103

27 May 2021

A cost-benefit analysis of cross-lingual transfer methods

G. Rosa

L. Bonifacio

Leandro Rodrigues de Souza

R. Lotufo

Rodrigo Nogueira

217

14 May 2021

GSPMD: General and Scalable Parallelization for ML Computation Graphs

...

218

161

10 May 2021

Are Pre-trained Convolutions Better than Pre-trained Transformers?Annual Meeting of the Association for Computational Linguistics (ACL), 2021

Zhen Qin

177

07 May 2021

Learning to Perturb Word Embeddings for Out-of-distribution QAAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

380

06 May 2021

Scaling End-to-End Models for Large-Scale Multilingual ASRAutomatic Speech Recognition & Understanding (ASRU), 2021

380

30 Apr 2021