TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines

31 October 2019

Papers citing "TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines"

4 / 4 papers shown

Title
EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning Mingjie Ma Zhihuan Yu Yichao Ma Guohui Li LRM 30 1 0 22 Apr 2024
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 18 6 0 19 Oct 2020
Neural Modular Control for Embodied Question Answering Abhishek Das Georgia Gkioxari Stefan Lee Devi Parikh Dhruv Batra LM&Ro 120 126 0 26 Oct 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,458 0 06 Jun 2016