EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding

17 August 2023

Papers citing "EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding"

50 / 190 papers shown

Title
Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation Galann Pennec Zhengyuan Liu Nicholas Asher Philippe Muller Nancy F. Chen VGen 21 0 0 10 May 2025
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant Haibo Wang Bo Feng Zhengfeng Lai Mingze Xu Shiyu Li Weifeng Ge Afshin Dehghan Meng Cao Ping-Chia Huang OffRL 47 3 0 08 May 2025
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models Shun Taguchi Hideki Deguchi Takumi Hamazaki Hiroyuki Sakai ReLM LRM 40 0 0 08 May 2025
R^3-VQA: "Read the Room" by Video Social Reasoning Lixing Niu Jiapeng Li Xingping Yu Shu Wang Ruining Feng Bo Wu Ping Wei Y. Wang Lifeng Fan 43 0 0 07 May 2025
RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph Sameer Malik Moyuru Yamada Ayush Singh Dishank Aggarwal 56 0 0 06 May 2025
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video Shuhang Xun Sicheng Tao J. Li Yibo Shi Zhixin Lin ... Shikang Wang Y. Liu H. Zhang Ying Ma Xuming Hu VLM LRM 41 0 0 04 May 2025
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions Yiming Du Wenyu Huang Danna Zheng Zhaowei Wang Sébastien Montella Mirella Lapata Kam-Fai Wong Jeff Z. Pan KELM MU 71 1 0 01 May 2025
Static or Dynamic: Towards Query-Adaptive Token Selection for Video Question Answering Yumeng Shi Quanyu Long Wenya Wang 64 0 0 30 Apr 2025
SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding Chenkai Zhang Yiming Lei Z. Liu Haitao Leng Shaoguo Liu Tingting Gao Qingjie Liu Yunhong Wang AI4TS 46 0 0 30 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
VideoMultiAgents: A Multi-Agent Framework for Video Question Answering Noriyuki Kugo Xiang Li Z. Li Ashish Gupta Arpandeep Khatua ... Yuta Kyuragi Yasunori Ishii Masamoto Tanabiki Kazuki Kozuka Ehsan Adeli 49 0 0 25 Apr 2025
ActionArt: Advancing Multimodal Large Models for Fine-Grained Human-Centric Video Understanding Yi-Xing Peng Q. Yang Yu-Ming Tang Shenghao Fu Kun-Yu Lin Xihan Wei Wei-Shi Zheng 40 0 0 25 Apr 2025
FRAG: Frame Selection Augmented Generation for Long Video and Long Document Understanding De-An Huang Subhashree Radhakrishnan Zhiding Yu Jan Kautz VGen VLM 76 0 0 24 Apr 2025
$VideoVista-CulturalLingo: 360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension$ VideoVista-CulturalLingo: 360 $^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension Xinyu Chen Yunxin Li Haoyuan Shi Baotian Hu Wenhan Luo Yaowei Wang M. Zhang ELM 62 0 0 23 Apr 2025
ZipR1: Reinforcing Token Sparsity in MLLMs Feng Chen Yefei He Lequan Lin J. Liu Bohan Zhuang Qi Wu 46 0 0 23 Apr 2025
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention Yucheng Li Huiqiang Jiang Chengruidong Zhang Qianhui Wu Xufang Luo ... Amir H. Abdi Dongsheng Li Jianfeng Gao Y. Yang Lili Qiu 31 1 0 22 Apr 2025
MR. Video: "MapReduce" is the Principle for Long Video Understanding Ziqi Pang Yu-xiong Wang VLM 34 0 0 22 Apr 2025
ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting Jian Hu Dimitrios Korkinof S. Gong Mariano Beguerisse-Díaz VLM 26 0 0 22 Apr 2025
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs Chun-Hsiao Yeh Chenyu Wang Shengbang Tong Ta-Ying Cheng Rouyu Wang Tianzhe Chu Yuexiang Zhai Yubei Chen Shenghua Gao Yi Ma LRM 61 0 0 21 Apr 2025
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models Weiye Xu J. Wang Weiyun Wang Zhe Chen Wengang Zhou ... Xiaohua Wang Xizhou Zhu Wenhai Wang Jifeng Dai Jinguo Zhu VLM LRM 48 0 0 21 Apr 2025
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark Enxin Song Wenhao Chai Weili Xu Jianwen Xie Yuxuan Liu Gaoang Wang 57 0 0 20 Apr 2025
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning Baining Zhao Z. Wang Jianjie Fang Chen Gao Fanhang Man Jinqiang Cui Xin Wang Xinlei Chen Y. Li Wenwu Zhu LM&Ro VLM LRM 53 1 0 17 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 103 0 0 17 Apr 2025
Multimodal Long Video Modeling Based on Temporal Dynamic Context Haoran Hao Jiaming Han Yiyuan Zhang Xiangyu Yue 32 0 0 14 Apr 2025
VideoAds for Fast-Paced Video Understanding: Where Opensource Foundation Models Beat GPT-4o & Gemini-1.5 Pro Zheyuan Zhang Monica Dou Linkai Peng Hongyi Pan Ulas Bagci Boqing Gong VLM 56 0 0 12 Apr 2025
PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models M. Dhouib Davide Buscaldi Sonia Vanier A. Shabou VLM 36 0 0 11 Apr 2025
Kimi-VL Technical Report Kimi Team Angang Du B. Yin Bowei Xing Bowen Qu ... Zhiqi Huang Zihao Huang Zijia Zhao Z. Chen Zongyu Lin MLLM VLM MoE 106 0 0 10 Apr 2025
SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen Videos Joshua Li Fernando Jose Pena Cantu Emily Yu A. Wong Yuchen Cui Yuhao Chen VLM 29 0 0 10 Apr 2025
InstructionBench: An Instructional Video Understanding Benchmark Haiwan Wei Yitian Yuan Xiaohan Lan Wei Ke Lin Ma ELM 29 0 0 07 Apr 2025
Advancing Egocentric Video Question Answering with Multimodal Large Language Models Alkesh Patel Vibhav Chitalia Yinfei Yang 23 0 0 06 Apr 2025
VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT Zhuo Zhi Qiangqiang Wu Minghe shen W. J. Li Yinchuan Li Kun Shao Kaiwen Zhou LLMAG 33 0 0 06 Apr 2025
Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation Chuanqi Cheng Jian-Yu Guan Wei Yu Wu Rui Yan VLM 45 0 0 03 Apr 2025
Slow-Fast Architecture for Video Multi-Modal Large Language Models Min Shi Shihao Wang Chieh-Yun Chen Jitesh Jain Kai Wang Junjun Xiong Guilin Liu Zhiding Yu Humphrey Shi 31 1 0 02 Apr 2025
Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs Lucas Ventura Antoine Yang Cordelia Schmid Gül Varol 28 0 0 31 Mar 2025
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts Y. Wang Y. Wang Bo Chen Tong Wu Dongyan Zhao Zilong Zheng VLM MLLM 55 1 0 29 Mar 2025
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs Sanjoy Chowdhury Hanan Gani Nishit Anand Sayan Nag Ruohan Gao Mohamed Elhoseiny Salman Khan Dinesh Manocha LRM 36 0 0 29 Mar 2025
EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos Yuxuan Li Vijay Veerabadran Michael L. Iuzzolino Brett D. Roads Asli Celikyilmaz Karl Ridgeway EgoV 54 0 0 28 Mar 2025
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users Antonia Karamolegkou Malvina Nikandrou Georgios Pantazopoulos Danae Sanchez Villegas Phillip Rust Ruchira Dhar Daniel Hershcovich Anders Søgaard 34 0 0 28 Mar 2025
MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX Liuyue Xie George Z. Wei Avik Kuthiala Ce Zheng Ananya Bal ... Rohan Choudhury Morteza Ziyadi Xu Zhang Hao Yang László A. Jeni 62 0 0 27 Mar 2025
Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model Abdelrahman M. Shaker Muhammad Maaz Chenhui Gou Hamid Rezatofighi Salman Khan F. Khan 55 0 0 27 Mar 2025
BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding Shuming Liu Chen Zhao Tianqi Xu Bernard Ghanem VLM 69 0 0 27 Mar 2025
Qwen2.5-Omni Technical Report Jin Xu Zhifang Guo Jinzheng He Hangrui Hu Ting He ... K. Dang Bin Zhang X. Wang Yunfei Chu Junyang Lin VGen AuLLM 86 12 0 26 Mar 2025
From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment Yucheng Suo Fan Ma Linchao Zhu T. Wang Fengyun Rao Yi Yang LRM 72 0 0 26 Mar 2025
FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs Carlos Plou Cesar Borja Ruben Martinez-Cantin Ana C. Murillo 56 0 0 25 Mar 2025
ACVUBench: Audio-Centric Video Understanding Benchmark Y. Yang Jimin Zhuang Guangzhi Sun Changli Tang Y. Li P. Li Yifan Jiang W. Li Z. Ma Chao Zhang AuLLM CoGe 56 0 0 25 Mar 2025
Breaking the Encoder Barrier for Seamless Video-Language Understanding Handong Li Yiyuan Zhang Longteng Guo Xiangyu Yue Jing Liu VLM 72 0 0 24 Mar 2025
Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks Nina Shvetsova Arsha Nagrani Bernt Schiele Hilde Kuehne Christian Rupprecht 42 0 0 24 Mar 2025
Video-XL-Pro: Reconstructive Token Compression for Extremely Long Video Understanding Xiangrui Liu Yan Shu Zheng Liu Ao Li Yang Tian Bo Zhao VGen VLM 86 0 0 24 Mar 2025
LLaVAction: evaluating and training multi-modal large language models for action recognition Shaokai Ye Haozhe Qi Alexander Mathis Mackenzie W. Mathis 60 1 0 24 Mar 2025
V2P-Bench: Evaluating Video-Language Understanding with Visual Prompts for Better Human-Model Interaction Yiming Zhao Y. Zeng Yukun Qi Y. Liu Lin Yen-Chen Zehui Chen Xikun Bao Jie Zhao Feng Zhao VLM 53 2 0 22 Mar 2025