Video Question Answering Using CLIP-Guided Visual-Text Attention

6 March 2023

Papers citing "Video Question Answering Using CLIP-Guided Visual-Text Attention"

2 / 2 papers shown

Title
MMRL: Multi-Modal Representation Learning for Vision-Language Models Yuncheng Guo Xiaodong Gu VLM OffRL 129 1 0 11 Mar 2025
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,981 0 09 Feb 2021