Selective Attention Improves Transformer

3 October 2024

Papers citing "Selective Attention Improves Transformer"

5 / 5 papers shown

Title
Adaptive Computation Pruning for the Forgetting Transformer Zhixuan Lin J. Obando-Ceron Xu Owen He Aaron C. Courville 25 0 0 09 Apr 2025
XAttention: Block Sparse Attention with Antidiagonal Scoring Ruyi Xu Guangxuan Xiao Haofeng Huang Junxian Guo Song Han 54 3 0 20 Mar 2025
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections Da Xiao Qingye Meng Shengping Li Xingyuan Yuan MoE AI4CE 52 0 0 13 Feb 2025
AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration Wenhao Sun Rong-Cheng Tu Jingyi Liao Zhao Jin Dacheng Tao VGen 97 1 0 16 Dec 2024
SPARTAN: A Sparse Transformer Learning Local Causation Anson Lei Bernhard Schölkopf Ingmar Posner 24 1 0 11 Nov 2024