v1v2v3v4v5 (latest)

TinyBERT: Distilling BERT for Natural Language Understanding

Findings (Findings), 2019

23 September 2019

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Linlin Li

Qun Liu

Papers citing "TinyBERT: Distilling BERT for Natural Language Understanding"

50 / 1,056 papers shown

Dynamic Knowledge Distillation for Pre-trained Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Lei Li

Yankai Lin

Shuhuai Ren

Peng Li

Jie Zhou

Xu Sun

251

23 Sep 2021

Distiller: A Systematic Study of Model Distillation Methods in Natural Language Processing

Zha Sheng

George Karypis

139

23 Sep 2021

RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation

329

21 Sep 2021

Knowledge Distillation with Noisy Labels for Natural Language Understanding

174

21 Sep 2021

Classification-based Quality Estimation: Small and Efficient Models for Real-world Applications

Francisco Guzmán

140

17 Sep 2021

General Cross-Architecture Distillation of Pretrained Language Models into Matrix Embeddings

Lukas Galke

Isabelle Cuber

Christophe Meyer

Henrik Ferdinand Nolscher

Angelina Sonderecker

A. Scherp

264

17 Sep 2021

Distilling Linguistic Context for Language Model Compression

Geondo Park

Gyeongman Kim

Eunho Yang

185

17 Sep 2021

Improving Streaming Transformer Based ASR Under a Framework of Self-supervised Learning

185

15 Sep 2021

EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up Knowledge Distillation

Hang Xu

Xiaodan Liang

191

15 Sep 2021

Will this Question be Answered? Question Filtering via Answer Model Distillation for Efficient Question Answering

Siddhant Garg

Alessandro Moschitti

168

14 Sep 2021

KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language Models via Knowledge Distillation

206

13 Sep 2021

On Language Models for Creoles

223

13 Sep 2021

Learning to Ground Visual Objects for Visual Dialog

199

13 Sep 2021

How to Select One Among All? An Extensive Empirical Study Towards the Robustness of Knowledge Distillation in Natural Language Understanding

285

13 Sep 2021

FLiText: A Faster and Lighter Semi-Supervised Text Classification with Convolution Networks

161

12 Sep 2021

Block Pruning For Faster TransformersConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

252

10 Sep 2021

Learning to Teach with Student Feedback

Yitao Liu

Tianxiang Sun

Xipeng Qiu

Xuanjing Huang

VLM

153

10 Sep 2021

PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text RecognitionACM Multimedia (ACM MM), 2021

250

09 Sep 2021

NU:BRIEF -- A Privacy-aware Newsletter Personalization Engine for PublishersACM Conference on Recommender Systems (RecSys), 2021

Ernesto Diaz-Aviles

Claudia Orellana-Rodriguez

Igor Brigadir

Reshma Narayanan Kutty

SyDa

102

08 Sep 2021

What's Hidden in a One-layer Randomly Weighted Transformer?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Douwe Kiela

164

08 Sep 2021

Hi, my name is Martha: Using names to measure and mitigate bias in generative dialogue models

Eric Michael Smith

Adina Williams

246

07 Sep 2021

Beyond Preserved Accuracy: Evaluating Loyalty and Robustness of BERT CompressionConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

236

07 Sep 2021

Sequential Attention Module for Natural Language Processing

07 Sep 2021

What Have Been Learned & What Should Be Learned? An Empirical Study of How to Selectively Augment Text for Classification

Biyang Guo

S. Han

Hailiang Huang

135

01 Sep 2021

DNNFusion: Accelerating Deep Neural Networks Execution with Advanced Operator FusionACM Transactions on Architecture and Code Optimization (TACO) (TACO), 2020

237

189

30 Aug 2021

FedKD: Communication Efficient Federated Learning via Knowledge DistillationNature Communications (Nat Commun), 2021

Xing Xie

291

497

30 Aug 2021

AEDA: An Easier Data Augmentation Technique for Text ClassificationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Akbar Karimi

L. Rossi

Andrea Prati

184

191

30 Aug 2021

Analyzing and Mitigating Interference in Neural Architecture SearchInternational Conference on Machine Learning (ICML), 2021

Xu Tan

258

29 Aug 2021

Layer-wise Model Pruning based on Mutual InformationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Jiwei Li

158

28 Aug 2021

Distilling the Knowledge of Large-scale Generative Models into Retrieval Models for Efficient Open-domain ConversationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

223

28 Aug 2021

Code-switched inspired losses for generic spoken dialog representationsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

370

27 Aug 2021

Can the Transformer Be Used as a Drop-in Replacement for RNNs in Text-Generating GANs?Recent Advances in Natural Language Processing (RANLP), 2021

Kevin Blin

Andrei Kucharavy

256

26 Aug 2021

Design and Scaffolded Training of an Efficient DNN Operator for Computer Vision on the EdgeACM Transactions on Embedded Computing Systems (TECS), 2021

Vinod Ganesan

Pratyush Kumar

280

25 Aug 2021

Influence-guided Data Augmentation for Neural Tensor CompletionInternational Conference on Information and Knowledge Management (CIKM), 2021

Sejoon Oh

Sungchul Kim

Ryan Rossi

Srijan Kumar

162

23 Aug 2021

Deploying a BERT-based Query-Title Relevance Classifier in a Production System: a View from the Trenches

Leonard Dahlmann

Tomer Lancewicki

132

23 Aug 2021

UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text

Soumajit Pramanik

Jesujoba Oluwadara Alabi

Rishiraj Saha Roy

Gerhard Weikum

RALM

806

19 Aug 2021

FlipDA: Effective and Robust Data Augmentation for Few-Shot LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

273

13 Aug 2021

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Katikapalli Subramanyam Kalyan

A. Rajasekharan

S. Sangeetha

VLM LM&MA

313

315

12 Aug 2021

Decoupled Transformer for Scalable Inference in Open-domain Question AnsweringRecent Advances in Natural Language Processing (RANLP), 2021

Haytham ElFadeel

Stanislav Peshterliev

211

05 Aug 2021

Knowledge Distillation from BERT Transformer to Speech Transformer for Intent ClassificationInterspeech (Interspeech), 2021

Yiding Jiang

Bidisha Sharma

Maulik C. Madhavi

Haizhou Li

178

05 Aug 2021

AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient Pre-trained Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Yichun Yin

Cheng Chen

Lifeng Shang

Xin Jiang

Xiao Chen

Qun Liu

VLM

174

29 Jul 2021

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language ProcessingACM Computing Surveys (CSUR), 2021

Graham Neubig

795

4,933

28 Jul 2021

An Argumentative Dialogue System for COVID-19 Vaccine InformationChinese Conference on Logic and Argumentation (CLA), 2021

Bettina Fazzinga

Andrea Galassi

Paolo Torroni

204

26 Jul 2021

Multi-stage Pre-training over Simplified Multimodal Pre-training ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Tongtong Liu

Fangxiang Feng

Caixia Yuan

22 Jul 2021

Follow Your Path: a Progressive Method for Knowledge Distillation

Wenxian Shi

Yuxuan Song

Hao Zhou

Bohan Li

Lei Li

126

20 Jul 2021

Scene-adaptive Knowledge Distillation for Sequential Recommendation via Differentiable Architecture Search

Min Yang

162

15 Jul 2021

FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks

467

13 Jul 2021

A Flexible Multi-Task Model for BERT Serving

Tianwen Wei

Jianwei Qi

Shenghuang He

103

12 Jul 2021

A Survey on Data Augmentation for Text Classification

Markus Bayer

M. Kaufhold

Christian A. Reuter

471

426

07 Jul 2021

Learning Efficient Vision Transformers via Fine-Grained Manifold Distillation

442

03 Jul 2021