Inferring and Executing Programs for Visual Reasoning

10 May 2017

Justin Johnson

B. Hariharan

Laurens van der Maaten

Li Fei-Fei

Papers citing "Inferring and Executing Programs for Visual Reasoning"

50 / 312 papers shown

SpatialTraceGen: High-Fidelity Traces for Efficient VLM Spatial Reasoning Distillation

28 Oct 2025

NePTune: A Neuro-Pythonic Framework for Tunable Compositional Reasoning on Vision-Language

Danial Kamali

Parisa Kordjamshidi

NAI LRM CoGe VLM

802

30 Sep 2025

Adaptive Fast-and-Slow Visual Program Reasoning for Long-Form VideoQA

178

22 Sep 2025

SHERPA: A Model-Driven Framework for Large Language Model Execution

Boqi Chen

Kua Chen

José Antonio Hernández López

122

29 Aug 2025

Explain Before You Answer: A Survey on Compositional Visual Reasoning

...

357

24 Aug 2025

PyVision: Agentic Vision with Dynamic Tooling

270

10 Jul 2025

Think before You Simulate: Symbolic Reasoning to Orchestrate Neural Computation for Counterfactual Question AnsweringIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

282

12 Jun 2025

A Neurosymbolic Agent System for Compositional Visual Reasoning

234

09 Jun 2025

Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning

216

07 Jun 2025

Understanding Complexity in VideoQA via Visual Program Generation

272

19 May 2025

Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models

405

28 Apr 2025

Symbolic Representation for Any-to-Any Generative TasksComputer Vision and Pattern Recognition (CVPR), 2025

...

226

24 Apr 2025

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models

533

26 Mar 2025

Neuro Symbolic Knowledge Reasoning for Procedural Video Question Answering

412

19 Mar 2025

MuBlE: MuJoCo and Blender simulation Environment and Benchmark for Task Planning in Robot Manipulation

429

04 Mar 2025

MoVer: Motion Verification for Motion Graphics AnimationsACM Transactions on Graphics (TOG), 2025

Jiaju Ma

Maneesh Agrawala

VGen

313

19 Feb 2025

DiSciPLE: Learning Interpretable Programs for Scientific Visual DiscoveryComputer Vision and Pattern Recognition (CVPR), 2025

455

17 Feb 2025

A Concept-Centric Approach to Multi-Modality Learning

Yuchong Geng

Ao Tang

314

18 Dec 2024

TANGO: Training-free Embodied AI Agents for Open-world TasksComputer Vision and Pattern Recognition (CVPR), 2024

331

05 Dec 2024

Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning ScenariosNeural Information Processing Systems (NeurIPS), 2024

363

20 Nov 2024

A Comprehensive Survey on Visual Question Answering Datasets and Algorithms

287

17 Nov 2024

Improving Generalization in Visual Reasoning via Self-Ensemble

321

28 Oct 2024

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question AnsweringIEEE Transactions on Image Processing (TIP), 2024

Ting Yu

Kunhao Fu

Jian Zhang

Qingming Huang

Jun Yu

222

12 Oct 2024

Discovering Object Attributes by Prompting Large Language Models with Perception-Action APIsIEEE International Conference on Robotics and Automation (ICRA), 2024

311

23 Sep 2024

Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph GenerationInternational Conference on Learning Representations (ICLR), 2024

Minghan Chen

Guikun Chen

Wenguan Wang

Yi Yang

420

16 Sep 2024

ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning

Alan Yuille

318

05 Aug 2024

Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering

Ruoyue Shen

Nakamasa Inoue

Koichi Shinoda

203

30 Jul 2024

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World KnowledgeComputer Vision and Pattern Recognition (CVPR), 2024

Chuang Gan

271

15 May 2024

STAR: A Benchmark for Situated Reasoning in Real-World Videos

Chuang Gan

470

257

15 May 2024

Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners

Jiajun Wu

277

30 Apr 2024

Closed Loop Interactive Embodied Reasoning for Robot Manipulation

420

23 Apr 2024

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

418

09 Apr 2024

Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering

220

05 Apr 2024

PhotoScout: Synthesis-Powered Multi-Modal Image Search

Celeste Barnaby

Qiaochu Chen

Chenglong Wang

Işıl Dillig

203

19 Jan 2024

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language ModelEuropean Conference on Artificial Intelligence (ECAI), 2024

340

12 Jan 2024

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question AnsweringAAAI Conference on Artificial Intelligence (AAAI), 2024

Yueqian Wang

Yuxuan Wang

Kai Chen

Dongyan Zhao

213

08 Jan 2024

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

316

03 Jan 2024

Interactive Visual Task Learning for Robots

Weiwei Gu

Anant Sah

N. Gopalan

233

20 Dec 2023

BenchLMM: Benchmarking Cross-style Visual Capability of Large Multimodal ModelsEuropean Conference on Computer Vision (ECCV), 2023

318

05 Dec 2023

Compositional Chain-of-Thought Prompting for Large Multimodal ModelsComputer Vision and Pattern Recognition (CVPR), 2023

334

166

27 Nov 2023

De-fine: Decomposing and Refining Visual Programs with Auto-FeedbackACM Multimedia (ACM MM), 2023

Minghe Gao

Juncheng Li

Hao Fei

Liang Pang

Wei Ji

171

21 Nov 2023

Attribute Diversity Determines the Systematicity Gap in VQAConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Ian Berlot-Attwell

Kumar Krishna Agrawal

A. M. Carrell

Yash Sharma

Naomi Saphra

258

15 Nov 2023

Analyzing Modular Approaches for Visual Question DecompositionConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Apoorv Khandelwal

Ellie Pavlick

Chen Sun

261

10 Nov 2023

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

155

27 Oct 2023

Symbolic Planning and Code Generation for Grounded Dialogue

Wenting Zhao

Daniel Fried

136

26 Oct 2023

What's Left? Concept Grounding with Logic-Enhanced Foundation ModelsNeural Information Processing Systems (NeurIPS), 2023

Joy Hsu

Jiayuan Mao

Joshua B. Tenenbaum

Jiajun Wu

VLM ReLM LRM

384

24 Oct 2023

API-Assisted Code Generation for Question Answering on Varied Table StructuresConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Daniel Fried

250

23 Oct 2023

NEUCORE: Neural Concept Reasoning for Composed Image Retrieval

Shu Zhao

Huijuan Xu

150

02 Oct 2023

D3: Data Diversity Design for Systematic Generalization in Visual Question Answering

174

15 Sep 2023

Neuro-Symbolic Recommendation Model based on Logic QueryKnowledge-Based Systems (KBS), 2023

206

14 Sep 2023