v1v2 (latest)

Leveraging Video Descriptions to Learn Video Question Answering

12 November 2016

Papers citing "Leveraging Video Descriptions to Learn Video Question Answering"

50 / 84 papers shown

TextVidBench: A Benchmark for Long Video Scene Text Understanding

346

05 Jun 2025

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

313

21 Apr 2025

Natural Language Generation from Visual Events: State-of-the-Art and Key Open Questions

1.1K

18 Feb 2025

Progress-Aware Video Frame CaptioningComputer Vision and Pattern Recognition (CVPR), 2024

687

03 Dec 2024

Grounded Video Caption Generation

Evangelos Kazakos

Cordelia Schmid

Josef Sivic

296

12 Nov 2024

Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

Kunhao Fu

328

12 Oct 2024

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question AnsweringIEEE Transactions on Image Processing (TIP), 2024

Ting Yu

Kunhao Fu

Jian Zhang

Qingming Huang

Jun Yu

266

12 Oct 2024

Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies

Hung-Ting Su

250

16 Jun 2024

Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA

Jongwoo Park

439

13 Jun 2024

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

...

Zhengyuan Yang

Kevin Lin

William Yang Wang

Lijuan Wang

Xin Eric Wang

VGen LRM

792

12 Jun 2024

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

633

09 Jun 2024

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

382

01 Apr 2024

Cross-Modal Reasoning with Event Correlation for Video Question Answering

210

20 Dec 2023

Long Story Short: a Summarize-then-Search Method for Long Video Question Answering

Jiwan Chung

Youngjae Yu

451

02 Nov 2023

From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and OpportunitiesInformation Fusion (Inf. Fusion), 2023

Md Farhan Ishmam

Md Sakib Hossain Shovon

M. F. Mridha

Nilanjan Dey

429

01 Nov 2023

Learning to Summarize and Answer Questions about a Virtual Robot's Past ActionsAutonomous Robots (Auton. Robots), 2023

Chad DeChant

Iretiayo Akinola

Daniel Bauer

240

16 Jun 2023

Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-ThoughtConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Vaishnavi Himakunthala

Michael Stephen Saxon

William Y. Wang

MLLM LRM

348

23 May 2023

VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation

Yashar Mehdad

196

04 May 2023

ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed VideosComputer Vision and Pattern Recognition (CVPR), 2023

Zhou Zhao

361

04 May 2023

A Review of Deep Learning for Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Fatih Porikli

250

22 Apr 2023

Learning Situation Hyper-Graphs for Video Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2023

Chuang Gan

272

18 Apr 2023

Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering

Hung-Ting Su

319

07 Apr 2023

Connecting Vision and Language with Video Localized NarrativesComputer Vision and Pattern Recognition (CVPR), 2023

397

22 Feb 2023

Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction AnticipationComputer Vision and Pattern Recognition (CVPR), 2023

Luc Van Gool

Otmar Hilliges

Xi Wang

572

22 Jan 2023

Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal ModelingBritish Machine Vision Conference (BMVC), 2022

Hsin-Ying Lee

Hung-Ting Su

372

08 Oct 2022

EgoTaskQA: Understanding Human Tasks in Egocentric VideosNeural Information Processing Systems (NeurIPS), 2022

Baoxiong Jia

274

107

08 Oct 2022

M^4I: Multi-modal Models Membership InferenceNeural Information Processing Systems (NeurIPS), 2022

Pingyi Hu

Zihan Wang

Ruoxi Sun

Hu Wang

Minhui Xue

241

15 Sep 2022

WildQA: In-the-Wild Video Question AnsweringInternational Conference on Computational Linguistics (COLING), 2022

359

14 Sep 2022

Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open QuestionsACM Computing Surveys (ACM CSUR), 2022

Paul Pu Liang

Amir Zadeh

Louis-Philippe Morency

347

200

07 Sep 2022

Equivariant and Invariant Grounding for Video Question AnsweringACM Multimedia (ACM MM), 2022

Yicong Li

Xiang Wang

Junbin Xiao

Tat-Seng Chua

228

26 Jul 2022

Invariant Grounding for Video Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2022

Xiang Wang

Wei Ji

245

116

06 Jun 2022

Learning to Retrieve Videos by Asking QuestionsACM Multimedia (ACM MM), 2022

Avinash Madasu

Junier Oliva

Gedas Bertasius

VGen

347

11 May 2022

Learning to Answer Visual Questions from Web VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

408

10 May 2022

3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social Media Short VideosComputer Vision and Pattern Recognition (CVPR), 2022

297

28 Mar 2022

Video Question Answering: Datasets, Algorithms and ChallengesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Wei Ji

358

118

02 Mar 2022

NEWSKVQA: Knowledge-Aware News Video Question AnsweringPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2022

Pranay Gupta

Manish Gupta

305

08 Feb 2022

Video as Conditional Graph Hierarchy for Multi-Granular Question Answering

Junbin Xiao

Angela Yao

Zhiyuan Liu

Yicong Li

Wei Ji

Tat-Seng Chua

391

140

12 Dec 2021

Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices

Hariom A. Pandya

Brijesh S. Bhatt

213

07 Dec 2021

Simple Dialogue System with AUDITEDBritish Machine Vision Conference (BMVC), 2021

Eugenio Clerico

Piotr Koniusz

218

22 Oct 2021

$Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$ Videos$

Pano-AVQA: Grounded Audio-Visual Question Answering on 360

^\circ

VideosIEEE International Conference on Computer Vision (ICCV), 2021

326

121

11 Oct 2021

TrUMAn: Trope Understanding in Movies and AnimationsInternational Conference on Information and Knowledge Management (CIKM), 2021

Hung-Ting Su

193

10 Aug 2021

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Andrew Wang

Vasu Sharma

CML

244

25 Jun 2021

NExT-QA:Next Phase of Question-Answering to Explaining Temporal ActionsComputer Vision and Pattern Recognition (CVPR), 2021

Junbin Xiao

Xindi Shang

Angela Yao

Tat-Seng Chua

490

776

18 May 2021

Relation-aware Hierarchical Attention Framework for Video Question AnsweringInternational Conference on Multimedia Retrieval (ICMR), 2021

266

13 May 2021

Video Question Answering with Phrases via Semantic RolesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Arka Sadhu

Kan Chen

Ram Nevatia

203

08 Apr 2021

Visual Semantic Role Labeling for Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2021

426

02 Apr 2021

AGQA: A Benchmark for Compositional Spatio-Temporal ReasoningComputer Vision and Pattern Recognition (CVPR), 2021

Madeleine Grunde-McLaughlin

Ranjay Krishna

Maneesh Agrawala

CoGe

318

151

30 Mar 2021

SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic EventsComputer Vision and Pattern Recognition (CVPR), 2021

Kepeng Xu

He Huang

Jun Liu

ViT LRM

538

116

29 Mar 2021

On Semantic Similarity in Video RetrievalComputer Vision and Pattern Recognition (CVPR), 2021

Michael Wray

Hazel Doughty

Dima Damen

297

18 Mar 2021

Narration Generation for Cartoon Videos

Nikos Papasarantopoulos

Shay B. Cohen

VGen

226

17 Jan 2021