Title
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action Jen-Hao Cheng Vivian Wang Huayu Wang Huapeng Zhou Yi-Hao Peng ... Wenhao Chai Yi-Ling Chen Vibhav Vineet Qin Cai Jenq-Neng Hwang AI4TS 24 0 0 02 May 2025
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation Ling You Wenxuan Huang Xinni Xie Xiangyi Wei Bangyan Li Shaohui Lin Yang Li Changbo Wang VGen 38 0 0 24 Apr 2025
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning Xinhao Li Ziang Yan Desen Meng Lu Dong Xiangyu Zeng Yinan He Y. Wang Yu Qiao Yi Wang Limin Wang VLM AI4TS LRM 24 2 0 09 Apr 2025
VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT Zhuo Zhi Qiangqiang Wu Minghe shen W. J. Li Yinchuan Li Kun Shao Kaiwen Zhou LLMAG 23 0 0 06 Apr 2025
Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding Xiangrui Liu Yan Shu Zheng Liu Ao Li Yang Tian Bo Zhao VGen VLM 86 0 0 24 Mar 2025
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning Zhiyuan Liu Yuting Zhang Feng Liu Changwang Zhang Ying Sun Jun Wang LRM 55 2 0 20 Mar 2025
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding Weiyu Guo Ziyang Chen Shaoguang Wang JianXiang He Yijie Xu Jinhui Ye Ying Sun Hui Xiong 31 1 0 17 Mar 2025
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding Xiao Wang Qingyi Si Jianlong Wu Shiyu Zhu Li Cao Liqiang Nie VLM 73 2 0 16 Mar 2025
LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents Boyu Chen Zhengrong Yue Siran Chen Z. Wang Yang Liu Peng Li Y. Wang VLM 50 0 0 13 Mar 2025
Generative Frame Sampler for Long Video Understanding Linli Yao Haoning Wu Kun Ouyang Y. Zhang Caiming Xiong Bei Chen Xu Sun Junnan Li VLM VGen 41 0 0 12 Mar 2025
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling Xinhao Li Yi Wang Jiashuo Yu Xiangyu Zeng Yuhan Zhu ... Yinan He Chenting Wang Yu Qiao Yali Wang L. Wang VLM 65 25 0 31 Dec 2024
TimeRefine: Temporal Grounding with Time Refining Video LLM Xizi Wang Feng Cheng Ziyang Wang Huiyu Wang Md. Mohaiminul Islam Lorenzo Torresani Mohit Bansal Gedas Bertasius David J. Crandall 84 1 0 12 Dec 2024
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models Mengxue Qu Xiaodong Chen Wu Liu Alicia Li Yao Zhao 29 13 0 01 Oct 2024