Papers citing 'ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System'

Title
SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding Zhen Chen Xingjian Luo Kun Yuan J. Wu Danny Tat Ming Chan Nassir Navab Hongbin Liu Zhen Lei Jiebo Luo 180 2 0 30 Aug 2025
Empowering Multimodal LLMs with External Tools: A Comprehensive Survey Wenbin An Jiahao Nie Yaqiang Wu Feng Tian Shijian Lu Q. Zheng MLLM 170 1 0 14 Aug 2025
VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering Yiran Meng Junhong Ye Wei Zhou Guanghui Yue Xudong Mao Ruomei Wang Baoquan Zhao 106 0 0 05 Aug 2025
From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative Understanding Xiangfeng Wang Xiao Li Yadong Wei Xueyu Song Yang Song ... Fangrui Zeng Zaiyi Chen Liu Liu Gu Xu Tong Xu VGen 88 0 0 03 Jul 2025
Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought Shuyi Zhang Xiaoshuai Hao Yingbo Tang Lingfeng Zhang Pengwei Wang Zhongyuan Wang Hongxuan Ma Shanghang Zhang VGen AI4TS 302 10 0 10 Jun 2025
PVChat: Personalized Video Chat with One-Shot Learning Yufei Shi Weilong Yan Gang Xu Yumeng Li Yongqian Li Hao Sun Fei Richard Yu Ming Li Si Yong Yeo 362 3 0 21 Mar 2025
StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition Xin Ding Hao Wu Yue Yang Shiqi Jiang Donglin Bai Zhibo Chen Ting Cao 897 9 0 08 Mar 2025
CoS: Chain-of-Shot Prompting for Long Video Understanding Jian Hu Zixu Cheng Chenyang Si Wei Li Shaogang Gong 241 18 0 10 Feb 2025
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024 Quan Zhang Yuxin Qi Rui Yuan Xi Tang Yuxin Qi Ke Zhang Chun Yuan 230 5 0 13 Nov 2024
AppAgent v2: Advanced Agent for Flexible Mobile Interactions Yanda Li Chi Zhang Wenjia Jiang Wanqi Yang Bin-Bin Fu Pei Cheng Xin Chen Yunchao Wei Y. X. Wei LLMAG LM&Ro 412 49 0 05 Aug 2024
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos Ziyang Wang Shoubin Yu Elias Stengel-Eskin Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal 425 143 0 29 May 2024
MovieChat+: Question-aware Sparse Memory for Long Video Question Answering Enxin Song Wenhao Chai Tianbo Ye Lei Li Xi Li Gaoang Wang VLM MLLM 231 50 0 26 Apr 2024
V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning Hang Hua Yunlong Tang Chenliang Xu Jiebo Luo VGen 321 45 0 18 Apr 2024
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning Alexandros Xenos Niki Maria Foteinopoulou Ioanna Ntinou Ioannis Patras Georgios Tzimiropoulos 251 23 0 10 Apr 2024
LVCHAT: Facilitating Long Video Comprehension Yu Wang Zeyuan Zhang Julian McAuley Zexue He VLM 129 6 0 19 Feb 2024
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent)International Conference on Machine Learning (ICML), 2024 Zongxin Yang Guikun Chen Xiaodi Li Wenguan Wang Yi Yang LM&Ro LLMAG 417 59 0 16 Jan 2024
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Chenliang Xu Jiebo Luo Chenliang Xu VLM 647 161 0 29 Dec 2023
A Simple LLM Framework for Long-Range Video Question-Answering Ce Zhang Taixi Lu Md. Mohaiminul Islam Ziyang Wang Shoubin Yu Mohit Bansal Gedas Bertasius 359 149 0 28 Dec 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming-Hsuan Yang Fahad Shahbaz Khan VLM 408 151 0 25 Jul 2023
ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst Zijia Zhao Longteng Guo Tongtian Yue Si-Qing Chen Shuai Shao Xinxin Zhu Zehuan Yuan Jing Liu MLLM 257 67 0 25 May 2023