Visual Programming: Compositional visual reasoning without training

Computer Vision and Pattern Recognition (CVPR), 2022

18 November 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Visual Programming: Compositional visual reasoning without training"

50 / 381 papers shown

PyVision: Agentic Vision with Dynamic Tooling

273

10 Jul 2025

GraspMAS: Zero-Shot Language-driven Grasp Detection with Multi-Agent System

232

23 Jun 2025

MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models

...

192

20 Jun 2025

Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints

319

10 Jun 2025

A Neurosymbolic Agent System for Compositional Visual Reasoning

234

09 Jun 2025

HAIBU-ReMUD: Reasoning Multimodal Ultrasound Dataset and Model Bridging to General Specific Domains

223

09 Jun 2025

Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification

199

08 Jun 2025

Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning

216

07 Jun 2025

Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models

165

06 Jun 2025

Gen-n-Val: Agentic Image Data Generation and Validation

320

05 Jun 2025

Follow the Flow: Fine-grained Flowchart Attribution with Neurosymbolic Agents

168

02 Jun 2025

PromptVFX: Text-Driven Fields for Open-World 3D Gaussian Animation

203

01 Jun 2025

Thinking with Generated Images

257

28 May 2025

Efficiently Enhancing General Agents With Hierarchical-categorical Memory

Changze Qiao

Mingming Lu

LLMAG

214

28 May 2025

Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models

271

27 May 2025

RefAV: Towards Planning-Centric Scenario Mining

Cainan Davidson

Deva Ramanan

Neehar Peri

402

27 May 2025

VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection

Zeyi Huang

Anirudh Sundara Rajan

239

26 May 2025

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

506

25 May 2025

v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning

327

24 May 2025

Adaptive Chain-of-Focus Reasoning via Dynamic Visual Search and Zooming for Efficient VLMs

...

366

21 May 2025

Understanding Complexity in VideoQA via Visual Program Generation

272

19 May 2025

Neuro-Symbolic Query CompilerAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

331

17 May 2025

GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

...

264

16 May 2025

TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers

321

13 May 2025

Visually Interpretable Subtask Reasoning for Visual Question Answering

247

12 May 2025

Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

...

617

30 Apr 2025

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

318

24 Apr 2025

Symbolic Representation for Any-to-Any Generative TasksComputer Vision and Pattern Recognition (CVPR), 2025

...

226

24 Apr 2025

MR. Video: "MapReduce" is the Principle for Long Video Understanding

Ziqi Pang

Yu-Xiong Wang

VLM

275

22 Apr 2025

DyFo: A Training-Free Dynamic Focus Visual Search for Enhancing LMMs in Fine-Grained Visual UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025

271

21 Apr 2025

Manipulating Multimodal Agents via Cross-Modal Prompt Injection

793

19 Apr 2025

Exploring Multimodal Prompt for Visualization Authoring with Large Language Models

312

18 Apr 2025

Reimagining Urban Science: Scaling Causal Inference with Large Language Models

...

952

15 Apr 2025

Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding

Zeyi Huang

Haohan Wang

LRM

145

14 Apr 2025

Resource-efficient Inference with Foundation Model Programs

276

09 Apr 2025

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

255

09 Apr 2025

Human-like compositional learning of visually-grounded concepts using synthetic environments

404

09 Apr 2025

DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance

308

31 Mar 2025

When 'YES' Meets 'BUT': Can Large Models Comprehend Contradictory Humor Through Comparative Reasoning?

...

327

29 Mar 2025

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models

533

26 Mar 2025

DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning

503

25 Mar 2025

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

435

25 Mar 2025

A Study on Neuro-Symbolic Artificial Intelligence: Healthcare Perspectives

Delower Hossain

Jake Y Chen

NAI

515

23 Mar 2025

ChatStitch: Visualizing Through Structures via Surround-View Unsupervised Deep Image Stitching with Collaborative LLM-Agents

311

19 Mar 2025

Benchmarking Failures in Tool-Augmented Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

218

18 Mar 2025

PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool PlayAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

276

18 Mar 2025

CoSTA

\ast

: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

299

13 Mar 2025

Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflectionInternational Conference on Learning Representations (ICLR), 2025

377

12 Mar 2025

Alignment for Efficient Tool Calling of Large Language Models

255

09 Mar 2025

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse PointsComputer Vision and Pattern Recognition (CVPR), 2025

259

04 Mar 2025