Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

20 November 2024

Papers citing "Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension"

5 / 5 papers shown

Title
Empowering Agentic Video Analytics Systems with Video Language Models Yuxuan Yan Shiqi Jiang Ting Cao Y. Yang Qianqian Yang Yuanchao Shu Y. Yang Lili Qiu VLM 67 0 0 01 May 2025
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark Enxin Song Wenhao Chai Weili Xu Jianwen Xie Yuxuan Liu Gaoang Wang 54 0 0 20 Apr 2025
Does Your Vision-Language Model Get Lost in the Long Video Sampling Dilemma? Tianyuan Qu Longxiang Tang Bohao Peng Senqiao Yang Bei Yu Jiaya Jia VLM 57 0 0 16 Mar 2025
LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents Boyu Chen Zhengrong Yue Siran Chen Z. Wang Yang Liu Peng Li Y. Wang VLM 58 0 0 13 Mar 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 82 3 0 12 Feb 2025