v1v2v3v4v5 (latest)

Meta Module Network for Compositional Visual Reasoning

IEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2019

8 October 2019

ArXiv (abs)PDF HTML Github (43★)

Papers citing "Meta Module Network for Compositional Visual Reasoning"

35 / 35 papers shown

Explain Before You Answer: A Survey on Compositional Visual Reasoning

...

419

24 Aug 2025

IMoRe: Implicit Program-Guided Reasoning for Human Motion Q&A

229

04 Aug 2025

Multi-Sourced Compositional Generalization in Visual Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

316

29 May 2025

Neuro Symbolic Knowledge Reasoning for Procedural Video Question Answering

534

19 Mar 2025

On the Role of Visual Grounding in VQA

Daniel Reich

Tanja Schultz

288

26 Jun 2024

VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images

Anna Penzkofer

Lei Shi

Andreas Bulling

251

06 May 2024

Detection-based Intermediate Supervision for Visual Question Answering

225

26 Dec 2023

Modularized Zero-shot VQA with Pre-trained ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Rui Cao

Jing Jiang

LRM

301

27 May 2023

Curriculum Learning for Compositional Visual ReasoningVISIGRAPP (VISIGRAPP), 2023

249

27 Mar 2023

NS3D: Neuro-Symbolic Grounding of 3D Objects and RelationsComputer Vision and Pattern Recognition (CVPR), 2023

Joy Hsu

Jiayuan Mao

Jiajun Wu

PINN

338

23 Mar 2023

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

Chuang Gan

350

12 Jan 2023

Visually Grounded VQA by Lattice-based Retrieval

Daniel Reich

F. Putze

Tanja Schultz

212

15 Nov 2022

Declaration-based Prompt Tuning for Visual Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

196

05 May 2022

Measuring Compositional Consistency for Video Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2022

Mona Gandhi

Mustafa Omer Gul

Eva Prakash

Madeleine Grunde-McLaughlin

Ranjay Krishna

Maneesh Agrawala

CoGe

309

14 Apr 2022

3D Question Answering

358

15 Dec 2021

MLP Architectures for Vision-and-Language Modeling: An Empirical Study

Zicheng Liu

189

08 Dec 2021

Coarse-to-Fine Reasoning for Visual Question Answering

393

06 Oct 2021

ProTo: Program-Guided Transformer for Program-Guided Tasks

303

02 Oct 2021

Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images

Elias Stengel-Eskin

Cihang Xie

217

01 Oct 2021

Weakly Supervised Relative Spatial Reasoning for Visual Question Answering

Yezhou Yang

198

04 Sep 2021

X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization in Visual Question AnsweringACM Multimedia (ACM MM), 2021

306

24 Jul 2021

Supervising the Transfer of Reasoning Patterns in VQANeural Information Processing Systems (NeurIPS), 2021

250

10 Jun 2021

MDETR -- Modulated Detection for End-to-End Multi-Modal UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

687

1,108

26 Apr 2021

How Transferable are Reasoning Patterns in VQA?Computer Vision and Pattern Recognition (CVPR), 2021

198

08 Apr 2021

SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels

229

14 Mar 2021

VinVL: Revisiting Visual Representations in Vision-Language Models

Pengchuan Zhang

Xiujun Li

Xiaowei Hu

Jianwei Yang

Lei Zhang

Lijuan Wang

Yejin Choi

Jianfeng Gao

ObjD VLM

597

172

02 Jan 2021

Object-Centric Diagnosis of Visual Reasoning

Jianwei Yang

Jiayuan Mao

Jiajun Wu

Devi Parikh

David D. Cox

J. Tenenbaum

Chuang Gan

OCL

236

21 Dec 2020

A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

355

15 Dec 2020

Interpretable Visual Reasoning via Induced Symbolic SpaceIEEE International Conference on Computer Vision (ICCV), 2020

Jinjun Xiong

267

23 Nov 2020

LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering

Govind Thattai

229

21 Nov 2020

Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions

Radhika Dua

Sai Srinivas Kancheti

V. Balasubramanian

LRM

364

24 Oct 2020

Large-Scale Adversarial Training for Vision-and-Language Representation LearningNeural Information Processing Systems (NeurIPS), 2020

422

545

11 Jun 2020

Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To?

340

104

09 Jun 2020

Oscar: Object-Semantics Aligned Pre-training for Vision-Language TasksEuropean Conference on Computer Vision (ECCV), 2020

Xiaowei Hu

...

Yejin Choi

1.0K

2,197

13 Apr 2020

VIOLIN: A Large-Scale Dataset for Video-and-Language InferenceComputer Vision and Pattern Recognition (CVPR), 2020

350

25 Mar 2020