Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts

Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts

15 November 2023

Papers citing "Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts"

18 / 18 papers shown

Title
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 96 3 0 17 Feb 2025
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering Qian Tao Xiaoyang Fan Yong Xu Xingquan Zhu Yufei Tang 43 0 0 22 Jan 2025
Improving Generalization in Visual Reasoning via Self-Ensemble Tien-Huy Nguyen Quang-Khai Tran Anh-Tuan Quang-Hoang VLM LRM 45 5 0 28 Oct 2024
Enhancing Advanced Visual Reasoning Ability of Large Language Models Zhiyuan Li Dongnan Liu Chaoyi Zhang Heng Wang Tengfei Xue Weidong Cai VLM LRM 43 6 0 21 Sep 2024
Benchmarking VLMs' Reasoning About Persuasive Atypical Images Sina Malakouti Aysan Aghazadeh Ashmit Khandelwal Adriana Kovashka VLM 26 2 0 16 Sep 2024
AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering Mahiro Ukai Shuhei Kurita Atsushi Hashimoto Yoshitaka Ushiku Nakamasa Inoue 18 0 0 28 Jul 2024
Foundation Models for Autonomous Robots in Unstructured Environments Hossein Naderi Alireza Shojaei Lifu Huang LM&Ro 40 0 0 19 Jul 2024
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding Bozhi Luan Hao Feng Hong Chen Yonghui Wang Wen-gang Zhou Houqiang Li MLLM 24 10 0 15 Apr 2024
An LLM-Enhanced Adversarial Editing System for Lexical Simplification Keren Tan Kangyang Luo Yunshi Lan Zheng Yuan Jinlong Shu AAML 19 5 0 22 Feb 2024
MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image Translation by Prompts Redescription and Beyond Yu-Hsiang Lin Xiaoyu Xian Yukai Shi Liang Lin DiffM 29 6 0 06 Jan 2024
Learning Domain Invariant Prompt for Vision-Language Models Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao VLM VPVLM 6 20 0 08 Dec 2022
What Language Model to Train if You Have One Million GPU Hours? Teven Le Scao Thomas Wang Daniel Hesslow Lucile Saulnier Stas Bekman ... Lintang Sutawika Jaesung Tae Zheng-Xin Yong Julien Launay Iz Beltagy MoE AI4CE 215 103 0 27 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,296 0 17 Jan 2021
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 251 1,584 0 21 Jan 2020