iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

16 November 2020

Papers citing "iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering"

22 / 22 papers shown

PR-DETR: Injecting Position and Relation Prior for Dense Video Captioning

261

19 Jun 2025

FocusedAD: Character-centric Movie Audio Description

457

16 Apr 2025

StoryNavi: On-Demand Narrative-Driven Reconstruction of Video Play With Generative AI

202

04 Oct 2024

AutoAD III: The Prequel -- Back to the Pixels

445

22 Apr 2024

AutoAD II: The Sequel -- Who, When, and What in Movie Audio DescriptionIEEE International Conference on Computer Vision (ICCV), 2023

321

10 Oct 2023

Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal InterventionBritish Machine Vision Conference (BMVC), 2023

251

17 Sep 2023

Tem-adapter: Adapting Image-Text Pretraining for Video Question AnswerIEEE International Conference on Computer Vision (ICCV), 2023

397

16 Aug 2023

A Review of Deep Learning for Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Fatih Porikli

273

22 Apr 2023

AutoAD: Movie Description in ContextComputer Vision and Pattern Recognition (CVPR), 2023

300

29 Mar 2023

Implicit and Explicit Commonsense for Multi-sentence Video CaptioningComputer Vision and Image Understanding (CVIU), 2023

Shih-Han Chou

James J. Little

Leonid Sigal

222

14 Mar 2023

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

586

358

27 Feb 2023

Video Question Answering with Iterative Video-Text Co-TokenizationEuropean Conference on Computer Vision (ECCV), 2022

292

01 Aug 2022

Zero-Shot Video Question Answering via Frozen Bidirectional Language ModelsNeural Information Processing Systems (NeurIPS), 2022

566

285

16 Jun 2022

Learning to Answer Visual Questions from Web VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

430

10 May 2022

AssistQ: Affordance-centric Question-driven Task Completion for Egocentric AssistantEuropean Conference on Computer Vision (ECCV), 2022

562

08 Mar 2022

Video Question Answering: Datasets, Algorithms and ChallengesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Wei Ji

360

119

02 Mar 2022

Bridging Video-text Retrieval with Multiple Choice QuestionsComputer Vision and Pattern Recognition (CVPR), 2022

Ying Shan

Ping Luo

381

126

13 Jan 2022

Dense Video Captioning Using Unsupervised Semantic Information

Valter Estevam

Rayson Laroca

Hélio Pedrini

David Menotti

301

15 Dec 2021

Transferring Domain-Agnostic Knowledge in Video Question Answering

154

26 Oct 2021

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Andrew Wang

Vasu Sharma

CML

269

25 Jun 2021

On the hidden treasure of dialog in video question answeringIEEE International Conference on Computer Vision (ICCV), 2021

274

26 Mar 2021

Open-Ended Multi-Modal Relational Reasoning for Video Question AnsweringIEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), 2020

600

01 Dec 2020