v1v2v3 (latest)

Hierarchical Conditional Relation Networks for Video Question Answering

Computer Vision and Pattern Recognition (CVPR), 2020

25 February 2020

Papers citing "Hierarchical Conditional Relation Networks for Video Question Answering"

50 / 161 papers shown

GHR-VQA: Graph-guided Hierarchical Relational Reasoning for Video Question Answering

Dionysia Danai Brilli

Dimitrios Mallis

Vassilis Pitsikalis

Petros Maragos

216

25 Nov 2025

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

...

245

11 Nov 2025

SRNN: Spatiotemporal Relational Neural Network for Intuitive Physics Understanding

Fei Yang

203

10 Nov 2025

Semantic Frame Aggregation-based Transformer for Live Video Comment GenerationIEEE transactions on multimedia (TMM), 2025

221

30 Oct 2025

AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering

167

21 Oct 2025

RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba

...

174

18 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

250

12 Oct 2025

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

107

14 Sep 2025

ChainReaction: Causal Chain-Guided Reasoning for Modular and Explainable Causal-Why Video Question Answering

218

28 Aug 2025

Leveraging Static Relationships for Intra-Type and Inter-Type Message Passing in Video Question Answering

Lili Liang

Guanglu Sun

328

03 Apr 2025

FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning

442

01 Apr 2025

Question-Aware Gaussian Experts for Audio-Visual Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2025

510

06 Mar 2025

EgoLife: Towards Egocentric Life AssistantComputer Vision and Pattern Recognition (CVPR), 2025

...

337

05 Mar 2025

Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis

Amir Hosein Fadaei

M. Dehaqani

405

11 Feb 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

484

31 Dec 2024

Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning ScenariosNeural Information Processing Systems (NeurIPS), 2024

422

20 Nov 2024

Grounded Video Caption Generation

Evangelos Kazakos

Cordelia Schmid

Josef Sivic

327

12 Nov 2024

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

402

07 Nov 2024

Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

Kunhao Fu

340

12 Oct 2024

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question AnsweringIEEE Transactions on Image Processing (TIP), 2024

Ting Yu

Kunhao Fu

Jian Zhang

Qingming Huang

Jun Yu

273

12 Oct 2024

VideoQA in the Era of LLMs: An Empirical StudyInternational Journal of Computer Vision (IJCV), 2024

...

418

08 Aug 2024

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and SynopsesACM Multimedia (MM), 2024

477

03 Aug 2024

Compositional Physical Reasoning of Objects and Events from VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

464

02 Aug 2024

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

Guangyao Li

Henghui Du

Di Hu

265

30 Jul 2024

Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering

Zhaohe Liao

Jiangtong Li

Li Niu

Liqing Zhang

CoGe

247

03 Jul 2024

Multi-Modal Video Dialog State Tracking in the Wild

Adnen Abdessaied

Lei Shi

Andreas Bulling

450

02 Jul 2024

SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question AnsweringIEEE Transactions on Audio, Speech, and Language Processing (IEEE TASLP), 2024

Zhe Yang

Wenrui Li

Guanghui Cheng

Mamba

307

14 Jun 2024

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

648

09 Jun 2024

STAR: A Benchmark for Situated Reasoning in Real-World Videos

Chuang Gan

590

279

15 May 2024

Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering

Pinghui Wang

Lingyun Song

669

18 Apr 2024

Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering

240

05 Apr 2024

CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

425

01 Apr 2024

VideoDistill: Language-aware Vision Distillation for Video Question Answering

Yu Qiao

271

01 Apr 2024

OmniVid: A Generative Framework for Universal Video Understanding

Lu Yuan

Zuxuan Wu

Yu-Gang Jiang

VLM VGen

344

26 Mar 2024

Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels

334

21 Mar 2024

Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph GroundingComputer Vision and Pattern Recognition (CVPR), 2024

421

18 Mar 2024

Answering Diverse Questions via Text Attached with Key Audio-Visual Clues

Qilang Ye

Zitong Yu

Xin Liu

275

11 Mar 2024

CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual ScenariosEuropean Conference on Computer Vision (ECCV), 2024

489

07 Mar 2024

Abductive Ego-View Accident Video Understanding for Safe Driving Perception

Jianwu Fang

Jianru Xue

346

01 Mar 2024

LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form Video-Text Understanding

Yuxuan Wang

Yueqian Wang

Pengfei Wu

Jianxin Liang

Dongyan Zhao

Zilong Zheng

VLM

301

25 Feb 2024

M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation

357

19 Feb 2024

ContPhy: Continuum Physical Concept Learning and Reasoning from Videos

Joshua B. Tenenbaum

Chuang Gan

LRM

243

09 Feb 2024

SNP-S3: Shared Network Pre-training and Significant Semantic Strengthening for Various Video-Text Tasks

257

31 Jan 2024

CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation ProcessInternational Conference on Machine Learning (ICML), 2024

Xiangchen Song

358

25 Jan 2024

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering

468

19 Jan 2024

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question AnsweringAAAI Conference on Artificial Intelligence (AAAI), 2024

Yueqian Wang

Yuxuan Wang

Kai Chen

Dongyan Zhao

245

08 Jan 2024

Context-Guided Spatio-Temporal Video GroundingComputer Vision and Pattern Recognition (CVPR), 2024

387

03 Jan 2024

Glance and Focus: Memory Prompting for Multi-Event Video Question AnsweringNeural Information Processing Systems (NeurIPS), 2024

Ziyi Bai

Ruiping Wang

Xilin Chen

394

03 Jan 2024

Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning for Video Question Answering

Qiuhong Ke

333

03 Jan 2024

Cross-Modal Reasoning with Event Correlation for Video Question Answering

232

20 Dec 2023