VisionZip: Longer is Better but Not Necessary in Vision Language Models

Computer Vision and Pattern Recognition (CVPR), 2024

5 December 2024

ArXiv (abs)PDF HTML HuggingFace (117 upvotes)Github (284★)

Papers citing "VisionZip: Longer is Better but Not Necessary in Vision Language Models"

50 / 54 papers shown

Jina-VLM: Small Multilingual Vision Language Model

336

03 Dec 2025

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

03 Dec 2025

Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

185

01 Dec 2025

Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?

Apratim Bhattacharyya

112

27 Nov 2025

Object-Centric Vision Token Pruning for Vision Language Models

173

25 Nov 2025

Unboxing the Black Box: Mechanistic Interpretability for Algorithmic Understanding of Neural Networks

Bianka Kowalska

Halina Kwaśnicka

179

24 Nov 2025

FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning

187

22 Nov 2025

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

533

20 Nov 2025

A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models

154

19 Nov 2025

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

253

18 Nov 2025

RedVTP: Training-Free Acceleration of Diffusion Vision-Language Models Inference via Masked Token-Guided Visual Token Pruning

176

16 Nov 2025

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

141

27 Oct 2025

Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models

134

23 Oct 2025

StreamingTOM: Streaming Token Compression for Efficient Video Understanding

194

21 Oct 2025

VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs

249

18 Oct 2025

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

09 Oct 2025

Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention

281

03 Oct 2025

VideoNSA: Native Sparse Attention Scales Video Understanding

136

02 Oct 2025

HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score

156

28 Sep 2025

CoFFT: Chain of Foresight-Focus Thought for Visual Language Models

280

26 Sep 2025

GaussianVision: Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting

288

26 Sep 2025

Interpreting Attention Heads for Image-to-Text Information Flow in Large Vision-Language Models

134

22 Sep 2025

Visual Representation Alignment for Multimodal Large Language Models

...

125

09 Sep 2025

Video-based Generalized Category Discovery via Memory-Guided Consistency-Aware Contrastive Learning

128

08 Sep 2025

AVAM: Universal Training-free Adaptive Visual Anchoring Embedded into Multimodal Large Language Model for Multi-image Question Answering

135

25 Aug 2025

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

111

25 Aug 2025

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

135

07 Aug 2025

TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model

140

28 Jul 2025

When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

508

27 Jul 2025

Mitigating Object Hallucinations via Sentence-Level Early Intervention

243

16 Jul 2025

Loss-Oriented Ranking for Automated Visual Prompting in LVLMs

246

19 Jun 2025

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

395

12 Jun 2025

Dual-Priv Pruning : Efficient Differential Private Fine-Tuning in Multimodal Large Language Models

...

160

08 Jun 2025

Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective

241

01 Jun 2025

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

375

29 May 2025

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

340

29 May 2025

Weakly Supervised Data Refinement and Flexible Sequence Compression for Efficient Thai LLM-based ASR

178

28 May 2025

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

304

28 May 2025

HoliTom: Holistic Token Merging for Fast Video Large Language Models

613

27 May 2025

Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM

Penghao Wu

Lewei Lu

Ziwei Liu

282

21 May 2025

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning

334

17 May 2025

VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning

508

28 Apr 2025

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

...

350

22 Apr 2025

Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark

397

20 Apr 2025

Beyond Intermediate States: Explaining Visual Redundancy through Language

251

26 Mar 2025

Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping

621

26 Mar 2025

Scaling Vision Pre-Training to 4K ResolutionComputer Vision and Pattern Recognition (CVPR), 2025

...

901

25 Mar 2025

Growing a Twig to Accelerate Large Vision-Language Models

353

18 Mar 2025

Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference

344

17 Mar 2025

Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma?

975

16 Mar 2025