Encoding and Controlling Global Semantics for Long-form Video Question Answering

30 May 2024

Zhiyuan Hu

See-Kiong Ng

Papers citing "Encoding and Controlling Global Semantics for Long-form Video Question Answering"

2 / 2 papers shown

Title
Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding Thong Nguyen Zhiyuan Hu Xu Lin Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 134 1 0 19 May 2025
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning Yiwu Zhong Zhuoming Liu Yin Li Liwei Wang 220 13 0 04 Dec 2024