v1v2v3v4v5 (latest)

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

3 August 2021

Papers citing "Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer"

50 / 82 papers shown

Title
Frequency-Aware Token Reduction for Efficient Vision Transformer Dong-Jae Lee Jiwan Hur Jaehyun Choi Jaemyung Yu Junmo Kim 122 0 0 26 Nov 2025
Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference Wengyi Zhan Mingbao Lin Zhihang Lin Rongrong Ji MLLM VLM LRM 171 0 0 24 Nov 2025
Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning Shawn Young Xingyu Zeng Lijian Xu VLM 64 0 0 24 Nov 2025
EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification Kazi Reyazul Hasan M. Rahman Wasif Jalal Sadif Ahmed Shahriar Raj Mubasshira Musarrat Muhammad Abdullah Adnan ViT 60 0 0 24 Nov 2025
AdaPerceiver: Transformers with Adaptive Width, Depth, and Tokens Purvish Jajal Nick Eliopoulos Benjamin Shiue-Hal Chou George K. Thiruvathukal Yung-Hsiang Lu James C. Davis 52 0 0 22 Nov 2025
TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks Xuanle Zhao Shuxin Zeng Yinyuan Cai Xiang Cheng Duzhen Zhang Xiuyi Chen Bo Xu 112 0 0 09 Nov 2025
Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free ApplicationsInternational Conference on Machine Learning (ICML), 2025 Zixuan Hu Yongxian Wei Li Shen Zhenyi Wang Lei Li Chun Yuan Dacheng Tao 116 8 0 31 Oct 2025
Low Power Vision Transformer Accelerator with Hardware-Aware Pruning and Optimized DataflowIEEE Transactions on Circuits and Systems Part 1: Regular Papers (TCAS-I), 2025 Ching-Lin Hsiung Tian-Sheuan Chang ViT 80 0 0 16 Oct 2025
ClustViT: Clustering-based Token Merging for Semantic Segmentation Fabio Montello Ronja Güldenring Lazaros Nalpantidis VLM 64 0 0 02 Oct 2025
PyramidStyler: Transformer-Based Neural Style Transfer with Pyramidal Positional Encoding and Reinforcement Learning Raahul Krishna Durairaju K. Saruladha 123 0 0 02 Oct 2025
Where Do Tokens Go? Understanding Pruning Behaviors in STEP at High Resolutions Michal Szczepanski Martyna Poreba Karim Haroun ViT 116 0 0 17 Sep 2025
EfficientIML: Efficient High-Resolution Image Manipulation Localization Jinhan Li Haoyang He Lei Xie Jiangning Zhang DiffM 84 0 0 10 Sep 2025
General Compression Framework for Efficient Transformer Object Tracking Lingyi Hong Jinglun Li Xinyu Zhou Shilin Yan Pinxue Guo ... Runze Li Xingdong Sheng Wei Zhang Hong Lu Wenqiang Zhang ViT 275 2 0 01 Jul 2025
Token Transforming: A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration Fanhu Zeng Deli Yu Zhenglun Kong Hao Tang ViT 142 6 0 06 Jun 2025
Contextually Guided Transformers via Low-Rank Adaptation A. Zhmoginov Jihwan Lee Max Vladymyrov Mark Sandler OffRL 162 0 0 06 Jun 2025
Lossless Token Merging Even Without Fine-Tuning in Vision Transformers Jaeyeon Lee Dong-Wan Choi MoMe ViT 284 2 0 21 May 2025
Image Recognition with Online Lightweight Vision Transformer: A Survey Zherui Zhang Rongtao Xu Jie Zhou Changwei Wang Xingtian Pei ... Jiguang Zhang Li Guo Longxiang Gao Wenyuan Xu Shibiao Xu ViT 1.1K 2 0 06 May 2025
SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit Youbing Hu Yun Cheng Anqi Lu Dawei Wei Zhijun Li 294 1 0 27 Feb 2025
Janus: Collaborative Vision Transformer Under Dynamic Network EnvironmentIEEE Conference on Computer Communications (IEEE INFOCOM), 2025 Linyi Jiang Silvery Fu Yifei Zhu Bo Li ViT 850 1 0 14 Feb 2025
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid InferenceAAAI Conference on Artificial Intelligence (AAAI), 2024 Zhihang Lin Mingbao Lin Luxi Lin Rongrong Ji 185 76 0 28 Jan 2025
FovealNet: Advancing AI-Driven Gaze Tracking Solutions for Optimized Foveated Rendering System Performance in Virtual Reality Wenxuan Liu Monde Duinkharjav Qi Sun Sai Qian Zhang 309 1 0 03 Jan 2025
Learning to Merge Tokens via Decoupled Embedding for Efficient Vision TransformersNeural Information Processing Systems (NeurIPS), 2024 Dong Hoon Lee Seunghoon Hong 174 9 0 13 Dec 2024
Training Noise Token Pruning Mingxing Rao Bohan Jiang Daniel Moyer ViT 297 0 0 27 Nov 2024
Visual-Word Tokenizer: Beyond Fixed Sets of Tokens in Vision Transformers Leonidas Gee Wing Yan Li V. Sharmanska Novi Quadrianto ViT 585 0 0 23 Nov 2024
big.LITTLE Vision Transformer for Efficient Visual Recognition He Guo Yulong Wang Zixuan Ye Jifeng Dai Yuwen Xiong ViT 199 1 0 14 Oct 2024
Agglomerative Token ClusteringEuropean Conference on Computer Vision (ECCV), 2024 Joakim Bruslund Haurum Sergio Escalera Graham W. Taylor T. Moeslund 243 7 0 18 Sep 2024
TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based ComputingIEEE Transactions on Emerging Topics in Computing (IEEE TETC), 2024 Abhishek Moitra Abhiroop Bhattacharjee Youngeun Kim Priyadarshini Panda ViT 169 3 0 22 Aug 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam Amirhossein Kazerouni Ilker Hacihaliloglu Dorit Merhof 238 13 0 28 Mar 2024
Accelerating ViT Inference on FPGA through Static and Dynamic Pruning Dhruv Parikh Shouyi Li Bingyi Zhang Rajgopal Kannan Carl E. Busart Viktor Prasanna 211 6 0 21 Mar 2024
LUM-ViT: Learnable Under-sampling Mask Vision Transformer for Bandwidth Limited Optical Signal Acquisition Lingfeng Liu Dong Ni Hangjie Yuan ViT 205 0 0 03 Mar 2024
CAMixerSR: Only Details Need More "Attention" Yan Wang Yi Liu Shijie Zhao Junlin Li Li Zhang SupR 184 48 0 29 Feb 2024
LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise Relevance Propagation Navin Ranjan Andreas E. Savakis MQ 189 12 0 20 Jan 2024
TPC-ViT: Token Propagation Controller for Efficient Vision Transformer Wentao Zhu 290 2 0 03 Jan 2024
Morphing Tokens Draw Strong Masked Image ModelsInternational Conference on Learning Representations (ICLR), 2023 Taekyung Kim Byeongho Heo Dongyoon Han 539 3 0 30 Dec 2023
Accelerating Vision Transformers Based on Heterogeneous Attention Patterns Deli Yu Teng Xi Jianwei Li Baopu Li Gang Zhang Haocheng Feng Junyu Han Jingtuo Liu Errui Ding Jingdong Wang ViT 211 2 0 11 Oct 2023
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Ao Wang Hui Chen Zijia Lin Sicheng Zhao Jiawei Han Guiguang Ding ViT 233 8 0 27 Sep 2023
Less is More: Focus Attention for Efficient DETR Dehua Zheng Wenhui Dong Hailin Hu Xinghao Chen Yunhe Wang 151 102 0 24 Jul 2023
MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers Jakob Drachmann Havtorn Amelie Royer Tijmen Blankevoort B. Bejnordi 215 13 0 05 Jul 2023
Revisiting Token Pruning for Object Detection and Instance SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023 Yifei Liu Mathias Gehrig Nico Messikommer Marco Cannici Davide Scaramuzza ViT VLM 339 51 0 12 Jun 2023
FasterViT: Fast Vision Transformers with Hierarchical AttentionInternational Conference on Learning Representations (ICLR), 2023 Ali Hatamizadeh Greg Heinrich Hongxu Yin Andrew Tao J. Álvarez Jan Kautz Pavlo Molchanov ViT 319 104 0 09 Jun 2023
SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic SegmentationInternational Joint Conference on Artificial Intelligence (IJCAI), 2023 Xuewei Li Tao Wu Chen Ma Gaoang Wang Ying Shan Xi Li ViT 3DPC MDE 170 21 0 06 Jun 2023
Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work Qiangchang Wang Yilong Yin 268 1 0 02 Jun 2023
DiffRate : Differentiable Compression Rate for Efficient Vision TransformersIEEE International Conference on Computer Vision (ICCV), 2023 Mengzhao Chen Wenqi Shao Peng Xu Mingbao Lin Kaipeng Zhang Jiayi Ji Rongrong Ji Yu Qiao Ping Luo ViT 169 69 0 29 May 2023
MixFormerV2: Efficient Fully Transformer TrackingNeural Information Processing Systems (NeurIPS), 2023 Yutao Cui Tian-Shu Song Gangshan Wu Liming Wang 187 110 0 25 May 2023
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language ModelsInternational Conference on Language Resources and Evaluation (LREC), 2023 Zekun Wang Jingchang Chen Wangchunshu Zhou Haichao Zhu Jiafeng Liang Liping Shan Ming Liu Dongliang Xu Qing Yang Bing Qin VLM 190 8 0 24 May 2023
Patch-wise Mixed-Precision Quantization of Vision TransformerIEEE International Joint Conference on Neural Network (IJCNN), 2023 Junrui Xiao Zhikai Li Lianwei Yang Qingyi Gu MQ 149 21 0 11 May 2023
Life Regression based Patch Slimming for Vision TransformersNeural Networks (Neural Netw.), 2023 Jiawei Chen Lin Chen Jianguo Yang Tianqi Shi Lechao Cheng Zunlei Feng Min-Gyoo Song ViT 140 6 0 11 Apr 2023
Rethinking Local Perception in Lightweight Vision Transformer Qi Fan Huaibo Huang Jiyang Guan Xiao-Yu Zhang ViT 294 47 0 31 Mar 2023
Efficient Transformer-based 3D Object Detection with Dynamic Token HaltingIEEE International Conference on Computer Vision (ICCV), 2023 Mao Ye Gregory P. Meyer Yuning Chai Qiang Liu 198 9 0 09 Mar 2023
GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision TransformerAAAI Conference on Artificial Intelligence (AAAI), 2023 Miao Yin Burak Uzkent Yilin Shen Hongxia Jin Bo Yuan ViT 236 20 0 13 Jan 2023