v1v2 (latest)

Transformer Quality in Linear Time

International Conference on Machine Learning (ICML), 2022

21 February 2022

Papers citing "Transformer Quality in Linear Time"

50 / 129 papers shown

TNT: Improving Chunkwise Training for Test-Time Memorization

230

10 Nov 2025

GroupKAN: Rethinking Nonlinearity with Grouped Spline-based KAN Modeling for Efficient Medical Image Segmentation

Guojie Li

Anwar P.P. Abdul Majeed

134

07 Nov 2025

FlashEVA: Accelerating LLM inference via Efficient Attention

Juan Gabriel Kostelec

Qinghai Guo

164

01 Nov 2025

Kimi Linear: An Expressive, Efficient Attention Architecture

...

143

30 Oct 2025

Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency

146

23 Oct 2025

Artificial Hippocampus Networks for Efficient Long-Context Modeling

146

08 Oct 2025

Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

158

06 Oct 2025

StateX: Enhancing RNN Recall via Post-training State Expansion

26 Sep 2025

FLASepformer: Efficient Speech Separation with Gated Focused Linear Attention Transformer

27 Aug 2025

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

255

21 Aug 2025

Fast weight programming and linear transformers: from machine learning to neurobiology

Kazuki Irie

Samuel J. Gershman

173

11 Aug 2025

Efficient Attention Mechanisms for Large Language Models: A Survey

246

25 Jul 2025

RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence ModelingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

262

06 Jul 2025

VSRM: A Robust Mamba-Based Framework for Video Super-Resolution

Dinh Phu Tran

Dao Duy Hung

Daeyoung Kim

204

28 Jun 2025

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training

...

Blaise Agüera y Arcas

João Sacramento

312

05 Jun 2025

423

05 Jun 2025

Blending Complementary Memory Systems in Hybrid Quadratic-Linear Transformers

Kazuki Irie

Morris Yau

Samuel J. Gershman

221

31 May 2025

ATLAS: Learning to Optimally Memorize the Context at Test Time

534

29 May 2025

S2AFormer: Strip Self-Attention for Efficient Vision TransformerIEEE Transactions on Image Processing (IEEE TIP), 2025

277

28 May 2025

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

...

905

10 May 2025

PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining

374

08 May 2025

Hadamard product in deep learning: Introduction, Advances and ChallengesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

349

17 Apr 2025

SAFT: Structure-aware Transformers for Textual Interaction ClassificationAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

103

07 Apr 2025

FLAMES: A Hybrid Spiking-State Space Model for Adaptive Memory Retention in Event-Based Learning

Biswadeep Chakraborty

Saibal Mukhopadhyay

463

02 Apr 2025

Reducing Smoothness with Expressive Memory Enhanced Hierarchical Graph Neural Networks

Thomas Bailie

Yun Sing Koh

S. Karthik Mukkavilli

V. Vetrova

AI4TS

528

01 Apr 2025

ParallelFlow: Parallelizing Linear Transformers via Flow Discretization

Nicola Muca Cirone

C. Salvi

340

01 Apr 2025

Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels

451

18 Mar 2025

xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference

278

17 Mar 2025

Parallel Sequence Modeling via Generalized Spatial Propagation NetworkComputer Vision and Pattern Recognition (CVPR), 2025

837

21 Jan 2025

Epicardium Prompt-guided Real-time Cardiac Ultrasound Frame-to-volume RegistrationInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Yuen-Chun Jeremy Teoh

Jing Qin

Pheng-Ann Heng

550

20 Jan 2025

MetaLA: Unified Optimal Linear Approximation to Softmax Attention MapNeural Information Processing Systems (NeurIPS), 2024

299

16 Nov 2024

Scene Graph Generation with Role-Playing Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024

276

20 Oct 2024

HSR-Enhanced Sparse Attention Acceleration

818

14 Oct 2024

Towards Universality: Studying Mechanistic Similarity Across Language Model ArchitecturesInternational Conference on Learning Representations (ICLR), 2024

Junxuan Wang

Xipeng Qiu

247

09 Oct 2024

Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient AttentionsInternational Conference on Learning Representations (ICLR), 2024

403

09 Oct 2024

Gated Slot Attention for Efficient Linear-Time Sequence ModelingNeural Information Processing Systems (NeurIPS), 2024

Yu Zhang

...

Bailin Wang

Guohong Fu

298

11 Sep 2024

1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data

Calvin Tan

Jerome Wang

ALM

286

07 Aug 2024

Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

Zilong Zheng

233

24 Jun 2024

tcrLM: a lightweight protein language model for predicting T cell receptor and epitope binding specificity

24 Jun 2024

Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences

Zicheng Liu

Stan Z. Li

265

12 Jun 2024

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

Haoran You

Yichao Fu

Zheng Wang

Amir Yazdanbakhsh

Yingyan Celine Lin

364

11 Jun 2024

Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism

Chang Zong

Jian Shao

Weiming Lu

Yueting Zhuang

231

06 Jun 2024

D-FaST: Cognitive Signal Decoding with Disentangled Frequency-Spatial-Temporal Attention

Kele Xu

157

02 Jun 2024

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

Zhen Qin

281

27 May 2024

Demystify Mamba in Vision: A Linear Attention Perspective

Gao Huang

363

161

26 May 2024

RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment Analysis

165

20 May 2024

Improving Transformers with Dynamically Composable Multi-Head AttentionInternational Conference on Machine Learning (ICML), 2024

260

14 May 2024

BrainODE: Dynamic Brain Signal Analysis via Graph-Aided Neural Ordinary Differential Equations

...

303

30 Apr 2024

Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges

Badri N. Patro

Vijay Srinivas Agneeswaran

Mamba

362

24 Apr 2024

A Survey on Efficient Inference for Large Language Models

...

Shengen Yan

421

174

22 Apr 2024