Talking-Heads Attention

5 March 2020

Papers citing "Talking-Heads Attention"

42 / 42 papers shown

Knocking-Heads Attention

138

27 Oct 2025

AttentionDrop: A Novel Regularization Method for Transformer Models

Mirza Samad Ahmed Baig

Syeda Anshrah Gillani

Abdul Akbar Khan

Shahid Munir Shah

Muhammad Omer Khan

285

16 Apr 2025

Multi-Token Attention

446

01 Apr 2025

Devil is in the Uniformity: Exploring Diverse Learners within Transformer for Image Restoration

367

26 Mar 2025

SAGE-Amine: Generative Amine Design with Multi-Property Optimization for Efficient CO2 Capture

Hocheol Lim

Hyein Cho

Jeonghoon Kim

296

04 Mar 2025

Dockformer: A transformer-based molecular docking paradigm for large-scale virtual screening

411

11 Nov 2024

Improving Vision Transformers by Overlapping Heads in Multi-Head Self-Attention

273

18 Oct 2024

DAPE V2: Process Attention Score as Feature Map for Length ExtrapolationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Jing Xiong

...

Michael Ng

Xin Jiang

Zhenguo Li

Yu Li

412

07 Oct 2024

Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets

519

28 Jul 2024

MultiMax: Sparse and Multi-Modal Attention Learning

Yuxuan Zhou

Mario Fritz

Margret Keuper

657

03 Jun 2024

Improving Transformers with Dynamically Composable Multi-Head AttentionInternational Conference on Machine Learning (ICML), 2024

338

14 May 2024

GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets

Dongjing Shan

guiqiang chen

ViT

350

07 Apr 2024

Enhancing Automatic Modulation Recognition through Robust Global Feature ExtractionIEEE Transactions on Vehicular Technology (IEEE Trans. Veh. Technol.), 2024

257

02 Jan 2024

MABViT -- Modified Attention Block Enhances Vision Transformers

Mahesh Ramesh

Aswinkumar Ramkumar

170

03 Dec 2023

Memory-efficient Stochastic methods for Memory-based Transformers

Vishwajit Kumar Vishnu

C. Sekhar

154

14 Nov 2023

ETDPC: A Multimodality Framework for Classifying Pages in Electronic Theses and Dissertations

Muntabir Hasan Choudhury

196

07 Nov 2023

How Much Context Does My Attention-Based ASR System Need?Interspeech (Interspeech), 2023

Robert Flynn

Anton Ragni

304

24 Oct 2023

Entropic Score metric: Decoupling Topology and Size in Training-free NAS

239

06 Oct 2023

TpuGraphs: A Performance Prediction Dataset on Large Tensor Computational GraphsNeural Information Processing Systems (NeurIPS), 2023

475

25 Aug 2023

Finding Stakeholder-Material Information from 10-K Reports using Fine-Tuned BERT and LSTM Models

V. Z. Chen

251

15 Aug 2023

Finding the Pillars of Strength for Multi-Head AttentionAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

273

22 May 2023

Multi-Head State Space Model for Speech RecognitionInterspeech (Interspeech), 2023

...

Ozlem Kalinli

212

21 May 2023

ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and RoadmapsReliability Engineering & System Safety (Reliab. Eng. Syst. Saf.), 2023

441

105

10 May 2023

ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile DevicesIEEE International Conference on Computer Vision (ICCV), 2023

Chen Tang

Huiqiang Jiang

Yuqing Yang

218

17 Mar 2023

Semantic Feature Integration network for Fine-grained Visual Classification

Haibo Wang

Yueyang Li

Haichi Luo

246

13 Feb 2023

EIT: Enhanced Interactive TransformerAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Jingbo Zhu

318

20 Dec 2022

Rethinking Vision Transformers for MobileNet Size and SpeedIEEE International Conference on Computer Vision (ICCV), 2022

430

284

15 Dec 2022

BJTU-WeChat's Systems for the WMT22 Chat Translation TaskConference on Machine Translation (WMT), 2022

Yunlong Liang

Fandong Meng

Jinan Xu

Jie Zhou

160

28 Nov 2022

FF2: A Feature Fusion Two-Stream Framework for Punctuation Restoration

115

09 Nov 2022

TinyViT: Fast Pretraining Distillation for Small Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Lu Yuan

351

446

21 Jul 2022

FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer

237

30 Jun 2022

MiniViT: Compressing Vision Transformers with Weight MultiplexingComputer Vision and Pattern Recognition (CVPR), 2022

Lu Yuan

306

162

14 Apr 2022

Transformers in Medical Imaging: A Survey

Salman Khan

Muhammad Haris Khan

410

1,034

24 Jan 2022

Streaming Transformer Transducer Based Speech Recognition Using Non-Causal Convolution

...

Ozlem Kalinli

303

07 Oct 2021

WeChat Neural Machine Translation Systems for WMT21Conference on Machine Translation (WMT), 2021

Peng Li

Jie Zhou

234

05 Aug 2021

MedGPT: Medical Concept Prediction from Clinical Narratives

271

07 Jul 2021

A Survey of TransformersAI Open (AO), 2021

Tianyang Lin

Yuxin Wang

Xiangyang Liu

Xipeng Qiu

ViT

634

1,442

08 Jun 2021

Refiner: Refining Self-attention for Vision Transformers

Weihao Yu

254

07 Jun 2021

Vision Transformers with Patch Diversification

346

26 Apr 2021

Going deeper with Image TransformersIEEE International Conference on Computer Vision (ICCV), 2021

Hugo Touvron

Matthieu Cord

Alexandre Sablayrolles

Gabriel Synnaeve

Edouard Grave

ViT

785

1,244

31 Mar 2021

Multi-Head Attention: Collaborate Instead of Concatenate

Jean-Baptiste Cordonnier

Andreas Loukas

Martin Jaggi

246

160

29 Jun 2020

Global Attention based Graph Convolutional Neural Networks for Improved Materials Property Prediction

137

11 Mar 2020