v1v2v3v4 (latest)

CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers

International Conference on Machine Learning (ICML), 2023

27 May 2023

ArXiv (abs)PDF HTML Github (32★)

Papers citing "CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers"

11 / 11 papers shown

SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

263

06 Oct 2025

SpecVLM: Fast Speculative Decoding in Vision-Language Models

287

15 Sep 2025

CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

163

24 Aug 2025

Dynamic Pyramid Network for Efficient Multimodal Large Language Model

438

26 Mar 2025

Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models

341

11 Mar 2025

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid InferenceAAAI Conference on Artificial Intelligence (AAAI), 2024

308

100

28 Jan 2025

DriveLM: Driving with Graph Visual Question AnsweringEuropean Conference on Computer Vision (ECCV), 2023

Chonghao Sima

Katrin Renz

Kashyap Chitta

Lawrence Yunliang Chen

964

439

17 Jan 2025

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

...

Yuhang Cao

Jiaqi Wang

485

182

22 Oct 2024

AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual GranularityAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

392

20 Sep 2024

NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality

Hao Yang

Ashwin Swaminathan

Colin Jon Taylor

210

18 Aug 2024

Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models

342

12 Dec 2023