LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

26 June 2024

Zhongwei Wan

Zhihong Zhu

Li Yuan

Papers citing "LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference"

26 / 26 papers shown

Title
Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering Yumeng Shi Quanyu Long Wenya Wang 64 0 0 30 Apr 2025
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features Jewon Lee Ki-Ung Song Seungmin Yang Donguk Lim Jaeyeon Kim Wooksu Shin Bo-Kyeong Kim Yong Jae Lee Tae-Ho Kim VLM 51 0 0 01 Apr 2025
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models Keda Tao Haoxuan You Yang Sui Can Qin H. Wang VLM MQ 84 0 0 20 Mar 2025
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding Xiao Wang Qingyi Si Jianlong Wu Shiyu Zhu Li Cao Liqiang Nie VLM 78 2 0 16 Mar 2025
LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMs Leqi Shen Tao He Guoqiang Gong Fan Yang Y. Zhang Pengzhang Liu Sicheng Zhao Guiguang Ding 39 0 0 14 Mar 2025
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models Bozhi Luan Wengang Zhou Hao Feng Zhe Wang Xiaosong Li H. Li VLM 61 0 0 11 Mar 2025
MEDA: Dynamic KV Cache Allocation for Efficient Multimodal Long-Context Inference Zhongwei Wan H. Shen Xin Wang C. Liu Zheda Mai M. Zhang VLM 54 3 0 24 Feb 2025
CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs Zeliang Zhang Yifan Zhu Susan Liang Zhiyuan Wang Jiani Liu ... Mingjie Zhao Chenliang Xu Kun Wan Wentian Zhao Wentian Zhao VLM MQ 36 0 0 15 Feb 2025
MPCache: MPC-Friendly KV Cache Eviction for Efficient Private Large Language Model Inference Wenxuan Zeng Ye Dong Jinjin Zhou Junming Ma Jin Tan Runsheng Wang Meng Li 47 0 0 12 Jan 2025
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding Xiao Wang Qingyi Si Jianlong Wu Shiyu Zhu Li Cao Liqiang Nie VLM 67 6 0 29 Dec 2024
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs Michael S Ryoo Honglu Zhou Shrikant B. Kendre Can Qin Le Xue Manli Shu Silvio Savarese R. Xu Caiming Xiong Juan Carlos Niebles VGen 29 12 0 21 Oct 2024
MoH: Multi-Head Attention as Mixture-of-Head Attention Peng Jin Bo Zhu Li Yuan Shuicheng Yan MoE 29 13 0 15 Oct 2024
ControlMM: Controllable Masked Motion Generation Ekkasit Pinyoanuntapong Muhammad Usama Saleem Korrawe Karunratanakul Pu Wang Hongfei Xue C. L. P. Chen Chuan Guo Junli Cao J. Ren Sergey Tulyakov VGen 29 4 0 14 Oct 2024
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression Yefei He Feng Chen Jing Liu Wenqi Shao Hong Zhou K. Zhang Bohan Zhuang VLM 41 11 0 11 Oct 2024
FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model Yichen Lu Jiaqi Song Chao-Han Huck Yang Shinji Watanabe 16 0 0 03 Oct 2024
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction Zhenmei Shi Yifei Ming Xuan-Phi Nguyen Yingyu Liang Shafiq Joty 70 27 0 25 Sep 2024
Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion Hui Shen Zhongwei Wan Xin Wang Mi Zhang Mamba 29 6 0 15 Sep 2024
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention Huiqiang Jiang Yucheng Li Chengruidong Zhang Qianhui Wu Xufang Luo ... Amir H. Abdi Dongsheng Li Chin-Yew Lin Yuqing Yang L. Qiu 63 1 0 02 Jul 2024
Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification Jungmin Yun Mihyeon Kim Youngbin Kim 60 5 0 03 Jun 2024
MileBench: Benchmarking MLLMs in Long Context Dingjie Song Shunian Chen Guiming Hardy Chen Fei Yu Xiang Wan Benyou Wang VLM 58 34 0 29 Apr 2024
SnapKV: LLM Knows What You are Looking for Before Generation Yuhong Li Yingbing Huang Bowen Yang Bharat Venkitesh Acyr F. Locatelli Hanchen Ye Tianle Cai Patrick Lewis Deming Chen VLM 75 148 0 22 Apr 2024
Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement Che Liu Zhongwei Wan Ouyang Cheng Anand Shah Wenjia Bai Rossella Arcucci 28 26 0 11 Mar 2024
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer Jianjian Cao Peng Ye Shengze Li Chong Yu Yansong Tang Jiwen Lu Tao Chen 22 15 0 05 Mar 2024
No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization J. Yang Byeongwook Kim Jeongin Bae Beomseok Kwon Gunho Park Eunho Yang S. Kwon Dongsoo Lee MQ 34 12 0 28 Feb 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 135 895 0 21 Dec 2023
Self-consistent Reasoning For Solving Math Word Problems Jing Xiong Zhongwei Wan Xiping Hu Min Yang Chengming Li ReLM LRM 43 10 0 27 Oct 2022