Large Language Models are Temporal and Causal Reasoners for Video Question Answering

24 October 2023

Papers citing "Large Language Models are Temporal and Causal Reasoners for Video Question Answering"

5 / 5 papers shown

Title
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 95 0 0 18 Feb 2025
ENTER: Event Based Interpretable Reasoning for VideoQA Hammad A. Ayyubi Junzhang Liu Ali Asgarov Zaber Ibn Abdul Hakim Najibul Haque Sarker ... Md. Atabuzzaman Xudong Lin Naveen Reddy Dyava Shih-Fu Chang Chris Thomas NAI 48 2 0 24 Jan 2025
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA Jongwoo Park Kanchana Ranasinghe Kumara Kahatapitiya Wonjeong Ryoo Donghyun Kim Michael S. Ryoo 51 20 0 13 Jun 2024
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion Shoubin Yu Jaehong Yoon Mohit Bansal 62 4 0 08 Feb 2024
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang VLM AI4TS 155 69 0 30 Dec 2022