v1v2v3v4v5 (latest)

TinyBERT: Distilling BERT for Natural Language Understanding

Findings (Findings), 2019

23 September 2019

Xiaoqi Jiao

Yichun Yin

Lifeng Shang

Xin Jiang

Linlin Li

Qun Liu

Papers citing "TinyBERT: Distilling BERT for Natural Language Understanding"

50 / 1,055 papers shown

ELAD: Explanation-Guided Large Language Models Active Distillation

225

20 Feb 2024

PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning

283

20 Feb 2024

Distilling Large Language Models for Text-Attributed Graph Learning

211

19 Feb 2024

Utilizing BERT for Information Retrieval: Survey, Applications, Resources, and Challenges

Md Tahmid Rahman Laskar

Amran Bhuiyan

342

18 Feb 2024

Efficiency at Scale: Investigating the Performance of Diminutive Language Models in Clinical Tasks

Niall Taylor

U. Ghose

Omid Rohanian

Mohammadmahdi Nouriborji

250

16 Feb 2024

Fast Vocabulary Transfer for Language Model Compression

182

15 Feb 2024

Multi-word Tokenization for Sequence Compression

195

15 Feb 2024

NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models

Shengrui Li

Junzhe Chen

Xueting Han

Jing Bai

262

15 Feb 2024

Model Compression and Efficient Inference for Large Language Models: A Survey

284

15 Feb 2024

Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes

Graham Neubig

276

08 Feb 2024

^3

-BERT: Distance-Enhanced Early Exiting for BERT based on Prototypical Networks

Duoqian Miao

194

03 Feb 2024

TransFR: Transferable Federated Recommendation with Adapter Tuning on Pre-trained Language Models

209

02 Feb 2024

Security and Privacy Challenges of Large Language Models: A Survey

383

307

30 Jan 2024

A Comprehensive Survey of Compression Algorithms for Language Models

329

27 Jan 2024

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech RecognisersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

266

22 Jan 2024

Confidence Preservation Property in Knowledge Distillation AbstractionsSGAI Conferences (SGAI), 2024

Dmitry Vengertsev

Elena Sherman

202

21 Jan 2024

Knowledge Fusion of Large Language Models

Wei Bi

250

19 Jan 2024

Large Language Models for Scientific Information Extraction: An Empirical Study for Virology

Mahsa Shamsabadi

Jennifer D'Souza

Sören Auer

305

18 Jan 2024

Solving Continual Offline Reinforcement Learning with Decision Transformer

Li Shen

Chun Yuan

256

16 Jan 2024

Knowledge Distillation for Closed-Source Language Models

Hongzhan Chen

Xiaojun Quan

Hehong Chen

Ming Yan

Ji Zhang

BDL

128

13 Jan 2024

An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation

229

12 Jan 2024

Location Aware Modular Biencoder for Tourism Question AnsweringInternational Joint Conference on Natural Language Processing (IJCNLP), 2024

178

04 Jan 2024

Understanding LLMs: A Comprehensive Overview from Training to Inference

...

Tuo Zhang

Tianming Liu

458

121

04 Jan 2024

Safety and Performance, Why Not Both? Bi-Objective Optimized Model Compression against Heterogeneous Attacks Toward AI Software DeploymentIEEE Transactions on Software Engineering (TSE), 2024

Leye Wang

203

02 Jan 2024

Beyond Output Matching: Bidirectional Alignment for Enhanced In-Context Learning

355

28 Dec 2023

Large Language Models for Conducting Advanced Text Analytics Information Systems Research

349

27 Dec 2023

Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments

249

26 Dec 2023

Multi-Task Multi-Agent Shared Layers are Universal Cognition of Multi-Agent Coordination

195

25 Dec 2023

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

392

119

23 Dec 2023

DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

Rahul Chand

Yashoteja Prabhu

Pratyush Kumar

181

20 Dec 2023

Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data

Shaoxiong Feng

233

20 Dec 2023

ConsistentEE: A Consistent and Hardness-Guided Early Exiting Method for Accelerating Language Models Inference

276

19 Dec 2023

A Multimodal Approach for Advanced Pest Detection and Classification

Jinli Duan

Haoyu Ding

Sung Kim

18 Dec 2023

Can persistent homology whiten Transformer-based black-box models? A case study on BERT compression

Luis Balderas

Miguel Lastra

José M. Benítez

120

17 Dec 2023

LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language

218

15 Dec 2023

Large Multimodal Model Compression via Efficient Pruning and Distillation at AntGroup

Jingdong Chen

Xiangyu Zhao

145

10 Dec 2023

Building Variable-sized Models via Learngene PoolAAAI Conference on Artificial Intelligence (AAAI), 2023

179

10 Dec 2023

Transformer as Linear Expansion of LearngeneAAAI Conference on Artificial Intelligence (AAAI), 2023

191

09 Dec 2023

Language Model Knowledge Distillation for Efficient Question Answering in Spanish

A. Bazaga

Pietro Lio

G. Micklem

169

07 Dec 2023

Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit

223

05 Dec 2023

Jellyfish: A Large Language Model for Data Preprocessing

509

04 Dec 2023

The Efficiency Spectrum of Large Language Models: An Algorithmic Survey

Tianyi Chen

392

01 Dec 2023

LinguaLinked: A Distributed Large Language Model Inference System for Mobile Devices

Sangeetha Abdu Jyothi

209

01 Dec 2023

Compression of end-to-end non-autoregressive image-to-speech system for low-resourced devices

198

30 Nov 2023

Mergen: The First Manchu-Korean Machine Translation Model Trained on Augmented Data

162

29 Nov 2023

E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer

388

28 Nov 2023

PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image GenerationEuropean Conference on Computer Vision (ECCV), 2023

217

28 Nov 2023

Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer

166

24 Nov 2023

Efficient and Robust Jet Tagging at the LHC with Knowledge Distillation

240

23 Nov 2023

Knowledge Distillation Based Semantic Communications For Multiple UsersIEEE Transactions on Wireless Communications (IEEE TWC), 2023

141

23 Nov 2023