VoCo-LLaMA: Towards Vision Compression with Large Language Models

VoCo-LLaMA: Towards Vision Compression with Large Language Models

18 June 2024

Yansong Tang

Papers citing "VoCo-LLaMA: Towards Vision Compression with Large Language Models"

6 / 6 papers shown

Title
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs Z. Wang Senthil Purushwalkam Caiming Xiong S. Heng Ji R. Xu 36 0 0 23 Apr 2025
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning Junwei Luo Yingying Zhang X. J. Yang Kang Wu Qi Zhu Lei Liang Jingdong Chen Yansheng Li 57 0 0 10 Mar 2025
Geometric Analysis of Reasoning Trajectories: A Phase Space Approach to Understanding Valid and Invalid Multi-Hop Reasoning in LLMs Javier Marin LRM 50 0 0 06 Oct 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Learning by Distilling Context Charles Burton Snell Dan Klein Ruiqi Zhong ReLM LRM 148 44 0 30 Sep 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 198 1,089 0 20 Sep 2022