v1v2v3v4v5 (latest)

TinyBERT: Distilling BERT for Natural Language Understanding

Findings (Findings), 2019

23 September 2019

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Linlin Li

Qun Liu

Papers citing "TinyBERT: Distilling BERT for Natural Language Understanding"

50 / 1,056 papers shown

Mitigating Gender Bias in Distilled Language Models via Counterfactual Role ReversalFindings (Findings), 2022

174

23 Mar 2022

Input-specific Attention Subnetworks for Adversarial DetectionFindings (Findings), 2022

Mitesh M Khapra

162

23 Mar 2022

Text Transformations in Contrastive Self-Supervised Learning: A ReviewInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Amrita Bhattacharjee

Mansooreh Karami

Huan Liu

SSL

381

22 Mar 2022

Out-of-distribution Generalization with Causal Invariant TransformationsComputer Vision and Pattern Recognition (CVPR), 2022

256

22 Mar 2022

DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and QuantizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

171

21 Mar 2022

Compression of Generative Pre-trained Language Models via QuantizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Chaofan Tao

Lu Hou

Wei Zhang

Lifeng Shang

Xin Jiang

Qun Liu

Ping Luo

Ngai Wong

262

116

21 Mar 2022

When Chosen Wisely, More Data Is What You Need: A Universal Sample-Efficient Strategy For Data AugmentationFindings (Findings), 2022

Ehsan Kamalloo

Mehdi Rezagholizadeh

A. Ghodsi

218

17 Mar 2022

Compressing Sentence Representation for Semantic Retrieval via Homomorphic Projective DistillationFindings (Findings), 2022

Xuandong Zhao

Zhiguo Yu

Ming-li Wu

Lei Li

113

15 Mar 2022

The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Eldar Kurtic

Daniel Fernando Campos

Michael Goin

Dan Alistarh

VLM MQ MedIm

395

146

14 Mar 2022

BiBERT: Accurate Fully Binarized BERTInternational Conference on Learning Representations (ICLR), 2022

Ziwei Liu

Xianglong Liu

195

113

12 Mar 2022

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge DistillationFindings (Findings), 2022

Wenliang Dai

Lu Hou

Lifeng Shang

Xin Jiang

Qun Liu

Pascale Fung

VLM

235

107

12 Mar 2022

LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval

267

10 Mar 2022

Knowledge Amalgamation for Object Detection with TransformersIEEE Transactions on Image Processing (IEEE TIP), 2022

385

07 Mar 2022

A Simple Hash-Based Early Exiting Approach For Language Understanding and GenerationFindings (Findings), 2022

Tianxiang Sun

Xiangyang Liu

Xuanjing Huang

Xipeng Qiu

254

03 Mar 2022

E-LANG: Energy-Based Joint Inferencing of Super and Swift Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Mohammad Akbari

Amin Banitalebi-Dehkordi

Yong Zhang

181

01 Mar 2022

TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation

Kailun Yang

276

27 Feb 2022

Art Creation with Multi-Conditional StyleGANsInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Konstantin Dobler

Florian Hübscher

Jan Westphal

Alejandro Sierra-Múnera

Gerard de Melo

Ralf Krestel

GAN AI4CE

267

23 Feb 2022

LAMP: Extracting Text from Gradients with Language Model PriorsNeural Information Processing Systems (NeurIPS), 2022

Mislav Balunović

Dimitar I. Dimitrov

Nikola Jovanović

Martin Vechev

318

17 Feb 2022

ZeroGen: Efficient Zero-shot Learning via Dataset GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Jiacheng Ye

Jiahui Gao

Qintong Li

Hang Xu

Jiangtao Feng

Zhiyong Wu

Tao Yu

Lingpeng Kong

SyDa

351

276

16 Feb 2022

A Survey on Model Compression and Acceleration for Pretrained Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2022

Canwen Xu

Julian McAuley

359

15 Feb 2022

What is Next when Sequential Prediction Meets Implicitly Hard Interaction?International Conference on Information and Knowledge Management (CIKM), 2021

171

14 Feb 2022

pNLP-Mixer: an Efficient all-MLP Architecture for LanguageAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

209

09 Feb 2022

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and LanguageInternational Conference on Machine Learning (ICML), 2022

584

1,037

07 Feb 2022

Aspect-based Sentiment Analysis through EDU-level AttentionsPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2022

Ting Lin

Aixin Sun

Yequan Wang

150

05 Feb 2022

AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

Dongkuan Xu

Xiaodong Liu

Ahmed Hassan Awadallah

Jianfeng Gao

205

29 Jan 2022

Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream TasksInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

427

24 Jan 2022

Can Model Compression Improve NLP Fairness

Guangxuan Xu

Qingyuan Hu

146

21 Jan 2022

AutoDistill: an End-to-End Framework to Explore and Distill Hardware-Efficient Language Models

Xiaofan Zhang

Zongwei Zhou

Deming Chen

Yu Emma Wang

173

21 Jan 2022

VAQF: Fully Automatic Software-Hardware Co-Design Framework for Low-Bit Vision Transformer

283

17 Jan 2022

Ensemble Transformer for Efficient and Accurate Ranking Tasks: an Application to Question Answering SystemsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Yoshitomo Matsubara

Luca Soldaini

Eric Lind

Alessandro Moschitti

235

15 Jan 2022

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks

Jianwei Yang

Lu Yuan

213

15 Jan 2022

Pretrained Language Models for Text Generation: A SurveyACM Computing Surveys (ACM CSUR), 2022

535

268

14 Jan 2022

Latency Adjustable Transformer Encoder for Language UnderstandingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Sajjad Kachuee

M. Sharifkhani

590

10 Jan 2022

ThreshNet: An Efficient DenseNet Using Threshold Mechanism to Reduce ConnectionsIEEE Access (IEEE Access), 2022

260

09 Jan 2022

Fortunately, Discourse Markers Can Enhance Language Models for Sentiment AnalysisAAAI Conference on Artificial Intelligence (AAAI), 2022

213

06 Jan 2022

Which Student is Best? A Comprehensive Knowledge Distillation Exam for Task-Specific BERT Models

Made Nindyatama Nityasya

Haryo Akbarianto Wibowo

Rendi Chevi

Radityo Eko Prasojo

Alham Fikri Aji

181

03 Jan 2022

Automatic Mixed-Precision Quantization Search of BERTInternational Joint Conference on Artificial Intelligence (IJCAI), 2021

171

30 Dec 2021

An Efficient Combinatorial Optimization Model Using Learning-to-Rank DistillationAAAI Conference on Artificial Intelligence (AAAI), 2021

Honguk Woo

Hyunsung Lee

Sangwook Cho

261

24 Dec 2021

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

...

214

23 Dec 2021

Distilling the Knowledge of Romanian BERTs Using Multiple TeachersInternational Conference on Language Resources and Evaluation (LREC), 2021

Andrei-Marius Avram

Darius Catrina

Dumitru-Clementin Cercel

343

23 Dec 2021

Sublinear Time Approximation of Text Similarity MatricesAAAI Conference on Artificial Intelligence (AAAI), 2021

303

17 Dec 2021

Data Efficient Language-supervised Zero-shot Recognition with Optimal Transport Distillation

322

17 Dec 2021

Distilled Dual-Encoder Model for Vision-Language Understanding

214

16 Dec 2021

AdaViT: Adaptive Tokens for Efficient Vision Transformer

647

449

14 Dec 2021

LMTurk: Few-Shot Learners as Crowdsourcing Workers in a Language-Model-as-a-Service Framework

Xin Jiang

Qun Liu

Hinrich Schütze

RALM

283

14 Dec 2021

Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language Models

Lei Li

Yankai Lin

Xuancheng Ren

Guangxiang Zhao

Peng Li

Jie Zhou

Xu Sun

MoMe

143

14 Dec 2021

From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression

Runxin Xu

Chengyu Wang

Fei Huang

119

14 Dec 2021

On the Compression of Natural Language Models

S. Damadi

13 Dec 2021

Pruning Pretrained Encoders with a Multitask Objective

Patrick Xia

Richard Shin

132

10 Dec 2021

DistilCSE: Effective Knowledge Distillation For Contrastive Sentence Embeddings

Peng Wang

174

10 Dec 2021