Locate before Answering: Answer Guided Question Localization for Video
Question Answering

Locate before Answering: Answer Guided Question Localization for Video Question Answering

5 October 2022

Papers citing "Locate before Answering: Answer Guided Question Localization for Video Question Answering"

13 / 13 papers shown

Title
Cross-modal Causal Relation Alignment for Video Question Grounding Weixing Chen Y. Liu Binglin Chen Jiandong Su Yongsen Zheng Liang Lin BDL VGen CML 41 2 0 05 Mar 2025
MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning Tieyuan Chen Huabin Liu Tianyao He Yihang Chen Chaofan Gan ... Cheng Zhong Yang Zhang Yingxue Wang Hui Lin Weiyao Lin VGen CML 37 5 0 26 Sep 2024
Scene-Text Grounding for Text-Based Video Question Answering Sheng Zhou Junbin Xiao Xun Yang Peipei Song Dan Guo Angela Yao Meng Wang Tat-Seng Chua 107 1 0 22 Sep 2024
A Unified Optimal Transport Framework for Cross-Modal Retrieval with Noisy Labels Haocheng Han Minnan Luo Huan Liu Fang Nan 33 0 0 20 Mar 2024
Answering Diverse Questions via Text Attached with Key Audio-Visual Clues Qilang Ye Zitong Yu Xin Liu 33 1 0 11 Mar 2024
Convincing Rationales for Visual Question Answering Reasoning Kun Li G. Vosselman Michael Ying Yang 34 1 0 06 Feb 2024
Glance and Focus: Memory Prompting for Multi-Event Video Question Answering Ziyi Bai Ruiping Wang Xilin Chen 89 8 0 03 Jan 2024
Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering Haopeng Li Qiuhong Ke Mingming Gong Tom Drummond 27 1 0 03 Jan 2024
Can I Trust Your Answer? Visually Grounded Video Question Answering Junbin Xiao Angela Yao Yicong Li Tat-Seng Chua 28 46 0 04 Sep 2023
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario Tianwen Qian Jingjing Chen Linhai Zhuo Yang Jiao Yueping Jiang 22 134 0 24 May 2023
TG-VQA: Ternary Game of Video Question Answering Hao Li Peng Jin Ze-Long Cheng Songyang Zhang Kai-xiang Chen Zhennan Wang Chang-rui Liu Jie Chen 26 10 0 17 May 2023
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Mohit Bansal 36 129 0 11 May 2023
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 268 10,214 0 16 Nov 2016