Title
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant Haibo Wang Bo Feng Zhengfeng Lai Mingze Xu Shiyu Li Weifeng Ge Afshin Dehghan Meng Cao Ping-Chia Huang OffRL 36 3 0 08 May 2025
TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos Linli Yao Y. Li Y. X. Wei Lei Li Shuhuai Ren ... Sida Li Lingpeng Kong Qi Liu Y. Zhang Xu Sun 23 1 0 24 Apr 2025
MR. Video: "MapReduce" is the Principle for Long Video Understanding Ziqi Pang Yu-xiong Wang VLM 32 0 0 22 Apr 2025
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention Yucheng Li Huiqiang Jiang Chengruidong Zhang Qianhui Wu Xufang Luo ... Amir H. Abdi Dongsheng Li Jianfeng Gao Y. Yang Lili Qiu 26 1 0 22 Apr 2025
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes Ji Qi Y. Yao Yushi Bai Bin Xu Juanzi Li Zhiyuan Liu Tat-Seng Chua 29 0 0 21 Apr 2025
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark Enxin Song Wenhao Chai Weili Xu Jianwen Xie Yuxuan Liu Gaoang Wang 54 0 0 20 Apr 2025
Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization Hongwei Ji Wulian Yun Mengshi Qi Huadong Ma LRM 37 0 0 18 Apr 2025
VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment Yogesh Kulkarni Pooyan Fazli 27 0 0 18 Apr 2025
Self-alignment of Large Video Language Models with Refined Regularized Preference Optimization Pritam Sarkar Ali Etemad 17 0 0 16 Apr 2025
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model Yang Shi Jiaheng Liu Yushuo Guan Z. Wu Y. Zhang ... Bohan Zeng W. Zhang Fuzheng Zhang Wenjing Yang Di Zhang VGen VLM 63 0 0 14 Apr 2025
Multimodal Long Video Modeling Based on Temporal Dynamic Context Haoran Hao Jiaming Han Yiyuan Zhang Xiangyu Yue 30 0 0 14 Apr 2025
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning Xinhao Li Ziang Yan Desen Meng Lu Dong Xiangyu Zeng Yinan He Y. Wang Yu Qiao Yi Wang Limin Wang VLM AI4TS LRM 34 2 0 09 Apr 2025
Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation Chuanqi Cheng Jian-Yu Guan Wei Yu Wu Rui Yan VLM 40 0 0 03 Apr 2025
H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding Qi Wu Quanlong Zheng Yanhao Zhang Junlin Xie Jinguo Luo ... Peng Liu Qingsong Xie Ru Zhen Haonan Lu Zhenyu Yang VLM 55 0 0 31 Mar 2025
STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding? Y. Li Y. Zhang Tao Lin Xiangrui Liu Wenxiao Cai Zheng Liu Bo Zhao LRM 56 0 0 31 Mar 2025
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users Antonia Karamolegkou Malvina Nikandrou Georgios Pantazopoulos Danae Sanchez Villegas Phillip Rust Ruchira Dhar Daniel Hershcovich Anders Søgaard 29 0 0 28 Mar 2025
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models Dohwan Ko S. Kim Yumin Suh Vijay Kumar B.G Minseo Yoon Manmohan Chandraker Hyunwoo J. Kim LRM 36 0 0 25 Mar 2025
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding Mingze Xu Mingfei Gao Shiyu Li Jiasen Lu Zhe Gan Zhengfeng Lai Meng Cao Kai Kang Y. Yang Afshin Dehghan 48 1 0 24 Mar 2025
Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding Xiangrui Liu Yan Shu Zheng Liu Ao Li Yang Tian Bo Zhao VGen VLM 86 0 0 24 Mar 2025
FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding Chongjun Tu Lin Zhang Pengtao Chen Peng Ye Xianfang Zeng W. Cheng Gang Yu Tao Chen 79 0 0 19 Mar 2025
ACT360: An Efficient 360-Degree Action Detection and Summarization Framework for Mission-Critical Training and Debriefing Aditi Tiwari Klara Nahrstedt 33 1 0 17 Mar 2025
Generative Frame Sampler for Long Video Understanding Linli Yao Haoning Wu Kun Ouyang Y. Zhang Caiming Xiong Bei Chen Xu Sun Junnan Li VLM VGen 48 0 0 12 Mar 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 61 19 0 21 Jan 2025
VideoSAVi: Self-Aligned Video Language Models without Human Supervision Yogesh Kulkarni Pooyan Fazli VLM 83 2 0 01 Dec 2024