Visual Programming: Compositional visual reasoning without training

Computer Vision and Pattern Recognition (CVPR), 2022

18 November 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Visual Programming: Compositional visual reasoning without training"

50 / 381 papers shown

CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

268

03 Mar 2025

Program Synthesis Dialog Agents for Interactive Decision-Making

Matthew Toles

Nikhil Balwani

Rattandeep Singh

Valentina Giulia Sartori Rodriguez

Zhou Yu

412

26 Feb 2025

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMsInternational Conference on Learning Representations (ICLR), 2025

289

24 Feb 2025

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

204

21 Feb 2025

MoVer: Motion Verification for Motion Graphics AnimationsACM Transactions on Graphics (TOG), 2025

Jiaju Ma

Maneesh Agrawala

VGen

313

19 Feb 2025

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

446

17 Feb 2025

DiSciPLE: Learning Interpretable Programs for Scientific Visual DiscoveryComputer Vision and Pattern Recognition (CVPR), 2025

456

17 Feb 2025

Language-to-Space Programming for Training-Free 3D Visual Grounding

584

03 Feb 2025

VIKSER: Visual Knowledge-Driven Self-Reinforcing Reasoning Framework

416

02 Feb 2025

Position: AI Scaling: From Up to Down and Out

523

02 Feb 2025

PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location PredictionNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

168

24 Jan 2025

Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering

229

22 Jan 2025

Neuro-Symbolic AI in 2024: A Systematic Review

Brandon C. Colelough

William Regli

NAI

682

09 Jan 2025

AutoPresent: Designing Structured Visuals from ScratchComputer Vision and Pattern Recognition (CVPR), 2025

...

278

01 Jan 2025

GAIS: A Novel Approach to Instance Selection with Graph Attention Networks

286

26 Dec 2024

Relational Programming with Foundation ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

313

19 Dec 2024

CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers

Dimitrios Mallis

Ahmet Serdar Karadeniz

Sebastian Cavada

Danila Rukhovich

Niki Maria Foteinopoulou

K. Cherenkova

Anis Kacem

Djamila Aouada

604

18 Dec 2024

Empowering LLMs to Understand and Generate Complex Vector GraphicsComputer Vision and Pattern Recognition (CVPR), 2024

534

15 Dec 2024

Olympus: A Universal Task Router for Computer Vision TasksComputer Vision and Pattern Recognition (CVPR), 2024

1.2K

12 Dec 2024

Language Model as Visual ExplainerNeural Information Processing Systems (NeurIPS), 2024

Xingyi Yang

Xinchao Wang

VLM

209

08 Dec 2024

Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning DistractorACM Multimedia (MM), 2024

326

08 Dec 2024

TANGO: Training-free Embodied AI Agents for Open-world TasksComputer Vision and Pattern Recognition (CVPR), 2024

331

05 Dec 2024

LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents

599

05 Dec 2024

CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning

1.2K

25 Nov 2024

GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers

455

23 Nov 2024

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

...

682

20 Nov 2024

Retinal Vessel Segmentation via Neuron Programming

273

17 Nov 2024

Generalist Virtual Agents: A Survey on Autonomous Agents Across Digital Platforms

313

17 Nov 2024

AutoVFX: Physically Realistic Video Editing from Natural Language InstructionsInternational Conference on 3D Vision (3DV), 2024

243

04 Nov 2024

TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos

Leonardo Plini

Luca Scofano

Edoardo De Matteis

Guido Maria DÁmely di Melendugno

367

04 Nov 2024

VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot PlanningInternational Conference on Learning Representations (ICLR), 2024

Kevin Ellis

355

30 Oct 2024

Natural Language Inference Improves Compositionality in Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Paola Cascante-Bonilla

334

29 Oct 2024

What Factors Affect Multi-Modal In-Context Learning? An In-Depth ExplorationNeural Information Processing Systems (NeurIPS), 2024

L. Qin

Qiguang Chen

Hao Fei

Zhi Chen

Min Li

Wanxiang Che

207

27 Oct 2024

GRS: Generating Robotic Simulation Tasks from Real-World Images

433

20 Oct 2024

GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

159

17 Oct 2024

Trust but Verify: Programmatic VLM Evaluation in the Wild

166

17 Oct 2024

Augmenting In-Context-Learning in LLMs via Automatic Data Labeling and Refinement

221

14 Oct 2024

GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game MapsNeural Information Processing Systems (NeurIPS), 2024

189

10 Oct 2024

VoxelPrompt: A Vision Agent for End-to-End Medical Image Analysis

403

10 Oct 2024

DataEnvGym: Data Generation Agents in Teacher Environments with Student FeedbackInternational Conference on Learning Representations (ICLR), 2024

Elias Stengel-Eskin

425

08 Oct 2024

Domain-Oriented Time Series Inference Agents for Reasoning and Automated Analysis

466

05 Oct 2024

Grounding Language in Multi-Perspective Referential CommunicationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Zineng Tang

Lingjun Mao

Alane Suhr

281

04 Oct 2024

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

188

02 Oct 2024

A Survey on Complex Tasks for Goal-Directed Interactive Agents

Mareike Hartmann

Alexander Koller

LM&Ro LLMAG

293

27 Sep 2024

Visual Data Diagnosis and Debiasing with Concept GraphsNeural Information Processing Systems (NeurIPS), 2024

234

26 Sep 2024

Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning

Debargha Ganguly

Srinivasan Iyengar

Vipin Chaudhary

Shivkumar Kalyanaraman

LRM

189

25 Sep 2024

Discovering Object Attributes by Prompting Large Language Models with Perception-Action APIsIEEE International Conference on Robotics and Automation (ICRA), 2024

311

23 Sep 2024

From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models

422

19 Sep 2024

NEUSIS: A Compositional Neuro-Symbolic Framework for Autonomous Perception, Reasoning, and Planning in Complex UAV Search MissionsIEEE Robotics and Automation Letters (RA-L), 2024

Zhixi Cai

Cristian Rojas Cardenas

Kevin Leo

Chenyuan Zhang

Kal Backman

...

Yuan-Fang Li

Mor Vered

Peter Stuckey

M. G. D. L. Banda

Hamid Rezatofighi

251

16 Sep 2024

Symbolic Regression with a Learned Concept LibraryNeural Information Processing Systems (NeurIPS), 2024

222

14 Sep 2024