v1v2v3v4v5 (latest)

TinyBERT: Distilling BERT for Natural Language Understanding

Findings (Findings), 2019

23 September 2019

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Linlin Li

Qun Liu

Papers citing "TinyBERT: Distilling BERT for Natural Language Understanding"

50 / 1,056 papers shown

Vision Transformer Pruning

491

113

17 Apr 2021

Annealing Knowledge DistillationConference of the European Chapter of the Association for Computational Linguistics (EACL), 2021

205

14 Apr 2021

Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware SamplingAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2021

476

456

14 Apr 2021

Efficient transfer learning for NLP with ELECTRA

Omer Levy

06 Apr 2021

Compressing Visual-linguistic Model via Knowledge DistillationIEEE International Conference on Computer Vision (ICCV), 2021

Zhiyuan Fang

Jianfeng Wang

Xiaowei Hu

Lijuan Wang

Yezhou Yang

Zicheng Liu

VLM

283

116

05 Apr 2021

Shrinking Bigfoot: Reducing wav2vec 2.0 footprint

186

29 Mar 2021

Retraining DistilBERT for a Voice Shopping Assistant by Using Universal Dependencies

P. Jayarao

Arpit Sharma

114

29 Mar 2021

A Practical Survey on Faster and Lighter TransformersACM Computing Surveys (CSUR), 2021

Quentin Fournier

G. Caron

Daniel Aloise

386

139

26 Mar 2021

Data Augmentation in Natural Language Processing: A Novel Text Generation Approach for Long and Short Text ClassifiersInternational Journal of Machine Learning and Cybernetics (IJMLC), 2021

207

145

26 Mar 2021

The NLP Cookbook: Modern Recipes for Transformer based Deep Learning ArchitecturesIEEE Access (IEEE Access), 2021

Sushant Singh

A. Mahmood

AI4TS

325

121

23 Mar 2021

ROSITA: Refined BERT cOmpreSsion with InTegrAted techniquesAAAI Conference on Artificial Intelligence (AAAI), 2021

Yuanxin Liu

Zheng Lin

Fengcheng Yuan

VLM MQ

184

21 Mar 2021

NameRec*: Highly Accurate and Fine-grained Person Name Recognition

Rui Zhang

Yimeng Dai

Shijie Liu

121

21 Mar 2021

Cost-effective Deployment of BERT Models in Serverless EnvironmentNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Katarína Benesová

Andrej Svec

Marek Suppa

167

19 Mar 2021

Scalable Vision Transformers with Hierarchical PoolingIEEE International Conference on Computer Vision (ICCV), 2021

Zizheng Pan

Bohan Zhuang

Jing Liu

Haoyu He

Jianfei Cai

ViT

242

147

19 Mar 2021

UniParma at SemEval-2021 Task 5: Toxic Spans Detection Using CharacterBERT and Bag-of-Words ModelInternational Workshop on Semantic Evaluation (SemEval), 2021

Akbar Karimi

L. Rossi

Andrea Prati

247

17 Mar 2021

Reweighting Augmented Samples by Minimizing the Maximal Expected LossInternational Conference on Learning Representations (ICLR), 2021

Mingyang Yi

Lu Hou

Lifeng Shang

Xin Jiang

Qun Liu

Zhi-Ming Ma

266

16 Mar 2021

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text RetrievalNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

211

16 Mar 2021

TAG: Gradient Attack on Transformer-based Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Ji Li

Sanguthevar Rajasekaran

Caiwen Ding

FedML PILM

247

11 Mar 2021

LightMBERT: A Simple Yet Effective Method for Multilingual BERT Distillation

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Xiao Chen

Linlin Li

Fang Wang

Qun Liu

114

11 Mar 2021

Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and VisionInternational Journal of Computer Vision (IJCV), 2021

Andrew Shin

Masato Ishii

T. Narihira

310

06 Mar 2021

Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines

Mahdi Hajiaghayi

Monir Hajiaghayi

Mark R. Bolin

122

01 Mar 2021

Learning Dynamic BERT via Trainable Gate Variables and a Bi-modal Regularizer

Seohyeong Jeong

Nojun Kwak

19 Feb 2021

Centroid Transformers: Learning to Abstract with Attention

253

17 Feb 2021

Improved Customer Transaction Classification using Semi-Supervised Knowledge Distillation

Rohan Sukumaran

15 Feb 2021

Learning Student-Friendly Teacher Networks for Knowledge DistillationNeural Information Processing Systems (NeurIPS), 2021

524

117

12 Feb 2021

NewsBERT: Distilling Pre-trained Language Model for Intelligent News ApplicationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Qi Liu

187

09 Feb 2021

FedAUX: Leveraging Unlabeled Auxiliary Data in Federated LearningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

189

142

04 Feb 2021

AutoFreeze: Automatically Freezing Model Blocks to Accelerate Fine-tuning

Yuhan Liu

Saurabh Agarwal

Shivaram Venkataraman

OffRL

247

02 Feb 2021

Distilling Large Language Models into Tiny and Effective Students using pQRNN

139

21 Jan 2021

Deep Epidemiological Modeling by Black-box Knowledge Distillation: An Accurate Deep Learning Model for COVID-19AAAI Conference on Artificial Intelligence (AAAI), 2021

Dongdong Wang

Shunpu Zhang

Liqiang Wang

141

20 Jan 2021

Learning to Augment for Data-Scarce Domain BERT Knowledge DistillationAAAI Conference on Artificial Intelligence (AAAI), 2021

182

20 Jan 2021

Model Compression for Domain Adaptation through Causal Effect EstimationTransactions of the Association for Computational Linguistics (TACL), 2021

267

18 Jan 2021

KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization

194

15 Jan 2021

SEED: Self-supervised Distillation For Visual RepresentationInternational Conference on Learning Representations (ICLR), 2021

Zhiyuan Fang

Jianfeng Wang

Lijuan Wang

Lei Zhang

Yezhou Yang

Zicheng Liu

SSL

513

209

12 Jan 2021

Adversarially Robust and Explainable Model Compression with On-Device Personalization for Text Classification

Yao Qiang

Supriya Tumkur Suresh Kumar

Marco Brocanelli

D. Zhu

AAML

144

10 Jan 2021

Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed

Eric Luhman

Troy Luhman

DiffM

497

349

07 Jan 2021

MSD: Saliency-aware Knowledge Distillation for Multimodal UnderstandingConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Xiang Ren

165

06 Jan 2021

I-BERT: Integer-only BERT QuantizationInternational Conference on Machine Learning (ICML), 2021

Sehoon Kim

476

370

05 Jan 2021

WARP: Word-level Adversarial ReProgrammingAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

679

369

01 Jan 2021

EarlyBERT: Efficient BERT Training via Early-bird Lottery TicketsAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

433

104

31 Dec 2020

MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained TransformersFindings (Findings), 2020

434

349

31 Dec 2020

BinaryBERT: Pushing the Limit of BERT QuantizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

Lifeng Shang

Xin Jiang

Qun Liu

Michael Lyu

Irwin King

499

251

31 Dec 2020

Towards Zero-Shot Knowledge Distillation for Natural Language ProcessingConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

255

31 Dec 2020

Unified Mandarin TTS Front-end Based on Distilled BERT Model

Yang Zhang

Liqun Deng

Yasheng Wang

167

31 Dec 2020

SemGloVe: Semantic Co-occurrences for GloVe from BERTIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2020

Yue Zhang

Yi Yang

182

30 Dec 2020

CascadeBERT: Accelerating Inference of Pre-trained Language Models via Calibrated Complete Models CascadeConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Lei Li

Yankai Lin

Deli Chen

Shuhuai Ren

Peng Li

Jie Zhou

Xu Sun

246

29 Dec 2020

ALP-KD: Attention-Based Layer Projection for Knowledge DistillationAAAI Conference on Artificial Intelligence (AAAI), 2020

Peyman Passban

Yimeng Wu

Mehdi Rezagholizadeh

Qun Liu

162

134

27 Dec 2020

Learning Light-Weight Translation Models from Deep TransformerAAAI Conference on Artificial Intelligence (AAAI), 2020

Jingbo Zhu

298

27 Dec 2020

Towards a Universal Continuous Knowledge BaseAI Open (AO), 2020

Gang Chen

Maosong Sun

Yang Liu

239

25 Dec 2020

A Survey on Visual TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

...

1.1K

3,160

23 Dec 2020