v1v2v3v4v5 (latest)

TinyBERT: Distilling BERT for Natural Language Understanding

Findings (Findings), 2019

23 September 2019

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Linlin Li

Qun Liu

Papers citing "TinyBERT: Distilling BERT for Natural Language Understanding"

50 / 1,055 papers shown

PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

Jialu Liu

Chao Zhang

199

05 Jun 2024

Seeing the Forest through the Trees: Data Leakage from Partial Transformer Gradients

Weijun Li

Xingliang Yuan

Mark Dras

PILM

266

03 Jun 2024

Posterior Label Smoothing for Node Classification

577

01 Jun 2024

STAT: Shrinking Transformers After Training

311

29 May 2024

FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models

Qianli Shen

249

28 May 2024

Exploring Ordinality in Text Classification: A Comparative Study of Explicit and Implicit Techniques

Prasanna Srinivasa Murthy

255

20 May 2024

Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks

Taiyuan Mei

Yun Zi

X. Cheng

Zijun Gao

Qi Wang

Haowei Yang

248

20 May 2024

Feature-Adaptive and Data-Scalable In-Context LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

275

17 May 2024

A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models

Vinija Jain

350

15 May 2024

Exploring Graph-based Knowledge: Multi-Level Feature Distillation via Channels Relational Graph

286

14 May 2024

ExplainableDetector: Exploring Transformer-based Language Modeling Approach for SMS Spam Detection with Explainability Analysis

Mohammad Amaz Uddin

Muhammad Nazrul Islam

Leandros A. Maglaras

Helge Janicke

Iqbal H. Sarker

173

12 May 2024

A Scene-aware Models Adaptation Scheme for Cross-scene Online Inference on Mobile DevicesIEEE International Conference on Distributed Computing Systems (ICDCS), 2024

264

09 May 2024

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

...

365

06 May 2024

Structural Pruning of Pre-trained Language Models via Neural Architecture Search

209

03 May 2024

UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation

Juhwan Choi

216

02 May 2024

Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget

Minh Duc Bui

Fabian David Schmidt

Goran Glavaš

Katharina von der Wense

189

30 Apr 2024

EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization

189

30 Apr 2024

Annotator-Centric Active Learning for Subjective NLP Tasks

515

24 Apr 2024

Parameter Efficient Diverse Paraphrase Generation Using Sequence-Level Knowledge Distillation

Lasal Jayawardena

Prasan Yapa

BDL

266

19 Apr 2024

An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training

291

18 Apr 2024

ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation

Divyang Doshi

Jung-Eun Kim

207

15 Apr 2024

MTKD: Multi-Teacher Knowledge Distillation for Image Super-Resolution

Yuxuan Jiang

Chen Feng

Fan Zhang

David Bull

SupR

273

15 Apr 2024

Navigating the Landscape of Large Language Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies

Benjue Weng

LM&MA

287

13 Apr 2024

Constrained C-Test Generation via Mixed-Integer Programming

Ji-Ung Lee

Marc E. Pfetsch

Iryna Gurevych

181

12 Apr 2024

CQIL: Inference Latency Optimization with Concurrent Computation of Quasi-Independent LayersAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

248

10 Apr 2024

What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models

Busayo Awobade

Mardiyyah Oduwole

Steven Kolawole

205

06 Apr 2024

Okay, Let's Do This! Modeling Event Coreference with Generated Rationales and Knowledge DistillationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

236

04 Apr 2024

Efficiently Distilling LLMs for Edge Applications

223

01 Apr 2024

A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs

189

30 Mar 2024

Are Compressed Language Models Less Subgroup Robust?

Leonidas Gee

Andrea Zugarini

Novi Quadrianto

187

26 Mar 2024

The Unreasonable Ineffectiveness of the Deeper Layers

434

158

26 Mar 2024

An Upload-Efficient Scheme for Transferring Knowledge From a Server-Side Pre-trained Generator to Clients in Heterogeneous Federated LearningComputer Vision and Pattern Recognition (CVPR), 2024

254

23 Mar 2024

Evaluating Unsupervised Dimensionality Reduction Methods for Pretrained Sentence Embeddings

Gaifan Zhang

Yi Zhou

Danushka Bollegala

221

20 Mar 2024

Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models

Adian Liusie

Yassir Fathullah

Mark Gales

110

20 Mar 2024

TriSum: Learning Summarization Ability from Large Language Models with Structured RationaleNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Jimeng Sun

232

15 Mar 2024

FBPT: A Fully Binary Point TransformerIEEE International Conference on Robotics and Automation (ICRA), 2024

Zhixing Hou

Yuzhang Shang

Yan Yan

233

15 Mar 2024

Measuring Bias in a Ranked List using Term-based RepresentationsEuropean Conference on Information Retrieval (ECIR), 2024

Maarten de Rijke

195

09 Mar 2024

Learning to Maximize Mutual Information for Chain-of-Thought Distillation

361

05 Mar 2024

Improving the Downstream Performance of Mixture-of-Experts Transformers via Weak Vanilla Transformers

118

04 Mar 2024

Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation

336

03 Mar 2024

Differentially Private Knowledge Distillation via Synthetic Text Generation

James Flemings

Murali Annavaram

SyDa

423

01 Mar 2024

Sinkhorn Distance Minimization for Knowledge Distillation

Yulei Qin

214

27 Feb 2024

Layer-wise Regularized Dropout for Neural Language Models

Shiwen Ni

Min Yang

Ruifeng Xu

Chengming Li

Xiping Hu

126

26 Feb 2024

Knowledge Fusion of Chat LLMs: A Preliminary Technical Report

Wei Bi

518

25 Feb 2024

C^3

: Confidence Calibration Model Cascade for Inference-Efficient Cross-Lingual Natural Language Understanding

Jing Gao

170

25 Feb 2024

Divide-or-Conquer? Which Part Should You Distill Your LLM?

316

22 Feb 2024

Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

Weilin Zhao

Xu Han

Chaojun Xiao

Maosong Sun

280

21 Feb 2024

EffLoc: Lightweight Vision Transformer for Efficient 6-DOF Camera Relocalization

196

21 Feb 2024

An Explainable Transformer-based Model for Phishing Email Detection: A Large Language Model Approach

Mohammad Amaz Uddin

Md Mahiuddin

Iqbal H. Sarker

208

21 Feb 2024

A Survey on Knowledge Distillation of Large Language Models

469

238

20 Feb 2024