v1v2 (latest)

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

AAAI Conference on Artificial Intelligence (AAAI), 2020

17 September 2020

Papers citing "Self-supervised pre-training and contrastive representation learning for multiple-choice video QA"

26 / 26 papers shown

IMoRe: Implicit Program-Guided Reasoning for Human Motion Q&A

225

04 Aug 2025

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Insup Lee

316

22 Aug 2024

End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling

Jianxin Liang

Xiaojun Meng

Yueqian Wang

Chang Liu

Qun Liu

Dongyan Zhao

237

21 Jul 2024

Answering Diverse Questions via Text Attached with Key Audio-Visual Clues

Qilang Ye

Zitong Yu

Xin Liu

271

11 Mar 2024

Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA

258

21 Dec 2023

Visual Commonsense based Heterogeneous Graph Contrastive Learning

Zhen Lei

248

11 Nov 2023

Long Story Short: a Summarize-then-Search Method for Long Video Question Answering

Jiwan Chung

Youngjae Yu

493

02 Nov 2023

Large Language Models are Temporal and Causal Reasoners for Video Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

454

24 Oct 2023

Tem-adapter: Adapting Image-Text Pretraining for Video Question AnswerIEEE International Conference on Computer Vision (ICCV), 2023

396

16 Aug 2023

Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models

Yi Wang

Yu Qiao

Jiaming Song

MLLM

214

15 Jun 2023

MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning

406

04 Jun 2023

Contrastive Video Question Answering via Video Graph TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Angela Yao

324

27 Feb 2023

Cross-Modal Contrastive Learning for Robust Reasoning in VQA

176

21 Nov 2022

Facial Video-based Remote Physiological Measurement via Self-supervised LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

339

27 Oct 2022

Dense but Efficient VideoQA for Intricate Compositional ReasoningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

306

19 Oct 2022

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual ModelingComputer Vision and Pattern Recognition (CVPR), 2022

Zicheng Liu

740

04 Sep 2022

Zero-Shot Video Question Answering via Frozen Bidirectional Language ModelsNeural Information Processing Systems (NeurIPS), 2022

551

284

16 Jun 2022

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

289

06 Jun 2022

Learning to Answer Visual Questions from Web VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

427

10 May 2022

Video Question Answering: Datasets, Algorithms and ChallengesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Wei Ji

360

118

02 Mar 2022

Temporal Sentence Grounding in Videos: A Survey and Future DirectionsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

471

20 Jan 2022

MERLOT Reserve: Neural Script Knowledge through Vision and Language and SoundComputer Vision and Pattern Recognition (CVPR), 2022

Yejin Choi

566

251

07 Jan 2022

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

Zicheng Liu

486

245

24 Nov 2021

Self-supervised Contrastive Cross-Modality Representation Learning for Spoken Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

269

08 Sep 2021

MERLOT: Multimodal Neural Script Knowledge ModelsNeural Information Processing Systems (NeurIPS), 2021

Yejin Choi

519

439

04 Jun 2021

VGNMN: Video-grounded Neural Module Network to Video-Grounded Language TasksNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Hung Le

Nancy F. Chen

Guosheng Lin

MLLM

330

16 Apr 2021