Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA

13 June 2024

Jongwoo Park

Papers citing "Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA"

21 / 21 papers shown

Title
VideoMultiAgents: A Multi-Agent Framework for Video Question Answering Noriyuki Kugo Xiang Li Z. Li Ashish Gupta Arpandeep Khatua ... Yuta Kyuragi Yasunori Ishii Masamoto Tanabiki Kazuki Kozuka Ehsan Adeli 49 0 0 25 Apr 2025
FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding De-An Huang Subhashree Radhakrishnan Zhiding Yu Jan Kautz VGen VLM 67 0 0 24 Apr 2025
AirVista-II: An Agentic System for Embodied UAVs Toward Dynamic Scene Semantic Understanding Fei Lin Yonglin Tian Tengchao Zhang Jun Huang Sangtian Guan Fei-Yue Wang 27 2 0 13 Apr 2025
VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT Zhuo Zhi Qiangqiang Wu Minghe shen W. J. Li Yinchuan Li Kun Shao Kaiwen Zhou LLMAG 28 0 0 06 Apr 2025
Agentic Keyframe Search for Video Question Answering Sunqi Fan Meng-Hao Guo Shuojin Yang 45 0 0 20 Mar 2025
Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding Weiyu Guo Ziyang Chen Shaoguang Wang JianXiang He Yijie Xu Jinhui Ye Ying Sun Hui Xiong 39 1 0 17 Mar 2025
Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing Yudong Liu Jingwei Sun Yueqian Lin Jingyang Zhang Ming Yin Qinsi Wang J. Zhang H. Li Y. Chen VLM 56 2 0 13 Mar 2025
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment Xiaowei Bi Zheyuan Xu 45 1 0 12 Mar 2025
ENTER: Event Based Interpretable Reasoning for VideoQA Hammad A. Ayyubi Junzhang Liu Ali Asgarov Zaber Ibn Abdul Hakim Najibul Haque Sarker ... Md. Atabuzzaman Xudong Lin Naveen Reddy Dyava Shih-Fu Chang Chris Thomas NAI 33 2 0 24 Jan 2025
AMEGO: Active Memory from long EGOcentric videos Gabriele Goletto Tushar Nagarajan Giuseppe Averta Dima Damen EgoV 20 3 0 17 Sep 2024
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos Ziyang Wang Shoubin Yu Elias Stengel-Eskin Jaehong Yoon Feng Cheng Gedas Bertasius Mohit Bansal 37 56 0 29 May 2024
Understanding Long Videos with Multimodal Language Models Kanchana Ranasinghe Xiang Li Kumara Kahatapitiya Michael S. Ryoo 27 8 0 25 Mar 2024
VideoAgent: Long-form Video Understanding with Large Language Model as Agent Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy VLM 83 51 0 15 Mar 2024
Memory Consolidation Enables Long-Context Video Understanding Ivana Balavzević Yuge Shi Pinelopi Papalampidi Rahma Chaabouni Skanda Koppula Olivier J. Hénaff 82 22 0 08 Feb 2024
Video Understanding with Large Language Models: A Survey Yunlong Tang Jing Bi Siting Xu Luchuan Song Susan Liang ... Feng Zheng Jianguo Zhang Ping Luo Jiebo Luo Chenliang Xu VLM 38 76 0 29 Dec 2023
A Simple LLM Framework for Long-Range Video Question-Answering Ce Zhang Taixi Lu Md. Mohaiminul Islam Ziyang Wang Shoubin Yu Mohit Bansal Gedas Bertasius 95 27 0 28 Dec 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 198 883 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang VLM AI4TS 152 49 0 30 Dec 2022
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 131 73 0 12 Jul 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022