Learning to Merge Tokens via Decoupled Embedding for Efficient Vision
Transformers

Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers

Neural Information Processing Systems (NeurIPS), 2024

13 December 2024

ArXiv (abs)PDF HTML Github (5★)

Papers citing "Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers"

6 / 6 papers shown

Title
Frequency-Aware Token Reduction for Efficient Vision Transformer Dong-Jae Lee Jiwan Hur Jaehyun Choi Jaemyung Yu Junmo Kim 97 0 0 26 Nov 2025
Accelerating Vision Transformers with Adaptive Patch Sizes Rohan Choudhury JungEun Kim Jeongseok Lee Eunho Yang László A. Jeni Kishore Venkateshan ViT 72 0 0 20 Oct 2025
CubistMerge: Spatial-Preserving Token Merging For Diverse ViT Backbones Wenyi Gong Mieszko Lis 95 0 0 26 Sep 2025
Where Do Tokens Go? Understanding Pruning Behaviors in STEP at High Resolutions Michal Szczepanski Martyna Poreba Karim Haroun ViT 108 0 0 17 Sep 2025
LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision A. Fuller Yousef Yassin Junfeng Wen Daniel G. Kyrollos Tarek Ibrahim James R. Green Evan Shelhamer ViT 266 1 0 23 May 2025
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation Eduard Allakhverdov Elizaveta Goncharova Andrey Kuznetsov 155 1 0 20 Mar 2025