v1v2 (latest)

Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned

Annual Meeting of the Association for Computational Linguistics (ACL), 2019

23 May 2019

Papers citing "Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned"

50 / 741 papers shown

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

220

04 Dec 2025

Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs

03 Dec 2025

Efficient-Husformer: Efficient Multimodal Transformer Hyperparameter Optimization for Stress and Cognitive Loads

Merey Orazaly

Fariza Temirkhanova

Jurn-Gyu Park

27 Nov 2025

Multi-speaker Attention Alignment for Multimodal Social Interaction

112

22 Nov 2025

StableMorph: High-Quality Face Morph Generation with Stable Diffusion

Wassim Kabbani

Kiran Raja

Raghavendra Ramachandra

C. Busch

11 Nov 2025

COMPASS: Context-Modulated PID Attention Steering System for Hallucination Mitigation

05 Nov 2025

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

174

02 Nov 2025

TELL-TALE: Task Efficient LLMs with Task Aware Layer Elimination

Omar Naim

Krish Sharma

Nicholas M. Asher

Nicholas Asher

26 Oct 2025

Head Pursuit: Probing Attention Specialization in Multimodal Transformers

124

24 Oct 2025

Benefits and Limitations of Communication in Multi-Agent Reasoning

14 Oct 2025

Cognitive Load Traces as Symbolic and Visual Accounts of Deep Model Cognition

Dong Liu

Yanxuan Yu

146

13 Oct 2025

Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models

142

13 Oct 2025

Medical Interpretability and Knowledge Maps of Large Language Models

Razvan Marinescu

Victoria-Elisabeth Gruber

Diego Fajardo

FAtt AI4MH

239

13 Oct 2025

Entropy Meets Importance: A Unified Head Importance-Entropy Score for Stable and Efficient Transformer Pruning

120

10 Oct 2025

How to Teach Large Multimodal Models New Skills

173

09 Oct 2025

HEMERA: A Human-Explainable Transformer Model for Estimating Lung Cancer Risk using GWAS Data

...

VA Million Veteran Program

MedIm

112

08 Oct 2025

Enhancing Concept Localization in CLIP-based Concept Bottleneck Models

168

08 Oct 2025

Downsized and Compromised?: Assessing the Faithfulness of Model Compression

Moumita Kamal

Douglas A. Talbert

117

07 Oct 2025

HoRA: Cross-Head Low-Rank Adaptation with Joint Hypernetworks

124

05 Oct 2025

Contrastive Retrieval Heads Improve Attention-Based Re-Ranking

129

02 Oct 2025

Eyes-on-Me: Scalable RAG Poisoning through Transferable Attention-Steering Attractors

157

01 Oct 2025

Interpreting Language Models Through Concept Descriptions: A Survey

Nils Feldhus

Laura Kopf

MILM

154

01 Oct 2025

Effective Model Pruning: Measure The Redundancy of Model Components

30 Sep 2025

The silence of the weights: an investigation of structural pruning strategies for attention-based audio signal architectures

30 Sep 2025

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

1.5K

30 Sep 2025

Layer-wise dynamic rank for compressing large language models

208

30 Sep 2025

Differentiable Sparsity via

D

-Gating: Simple and Versatile Structured Penalization

392

28 Sep 2025

On the Capacity of Self-Attention

Micah Adler

193

26 Sep 2025

Multilingual Vision-Language Models, A Survey

Andrei-Alexandru Manea

Jindřich Libovický

VLM

147

26 Sep 2025

What Matters More For In-Context Learning under Matched Compute Budgets: Pretraining on Natural Text or Incorporating Targeted Synthetic Examples?

Mohammed Sabry

Anya Belz

26 Sep 2025

AIBA: Attention-based Instrument Band Alignment for Text-to-Audio Diffusion

171

25 Sep 2025

Pico: A Modular Framework for Hypothesis-Driven Small Language Model Research

Richard Diehl Martinez

144

19 Sep 2025

GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

Yixuan Tang

Yi Yang

128

13 Sep 2025

Dynamic Adaptive Shared Experts with Grouped Multi-Head Attention Mixture of Experts

105

05 Sep 2025

Enhancing Fairness in Skin Lesion Classification for Medical Diagnosis Using Prune Learning

Kuniko Paxton

Mohammed Naveed Akram

Dhavalkumar Thakker

Y. Papadopoulos

Tanaya Maslekar

107

31 Aug 2025

OASIS: Harnessing Diffusion Adversarial Network for Ocean Salinity Imputation using Sparse Drifter Trajectories

...

113

29 Aug 2025

Rethinking Layer-wise Model Merging through Chain of Merges

201

29 Aug 2025

CoFormer: Collaborating with Heterogeneous Edge Devices for Scalable Transformer InferenceIEEE transactions on computers (IEEE Trans. Comput.), 2025

159

28 Aug 2025

Pruning and Malicious Injection: A Retraining-Free Backdoor Attack on Transformer Models

151

14 Aug 2025

What are you sinking? A geometric approach on attention sink

Valeria Ruscio

Umberto Nanni

Fabrizio Silvestri

122

04 Aug 2025

Unifying Mixture of Experts and Multi-Head Latent Attention for Efficient Language Models

161

02 Aug 2025

Unraveling Hidden Representations: A Multi-Modal Layer Analysis for Better Synthetic Content Forensics

Tom Or

Omri Azencot

AAML

191

01 Aug 2025

Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study

184

28 Jul 2025

Contrast-CAT: Contrasting Activations for Enhanced Interpretability in Transformer-based Text ClassifiersConference on Uncertainty in Artificial Intelligence (UAI), 2025

Sungmin Han

Jeonghyun Lee

Sangkyun Lee

232

27 Jul 2025

Attention (as Discrete-Time Markov) Chains

292

23 Jul 2025

Knowledge Fusion via Bidirectional Information Aggregation

134

11 Jul 2025

BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers

Patrik Okanovic

Sameer Deshmukh

Grzegorz Kwa'sniewski

...

204

03 Jul 2025

Not All Attention Heads Are What You Need: Refining CLIP's Image Representation with Attention Ablation

110

01 Jul 2025

Beyond Parallelism: Synergistic Computational Graph Effects in Multi-Head Attention

Haitz Sáez de Ocáriz Borde

112

28 Jun 2025

Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training

196

27 Jun 2025