ViperGPT: Visual Inference via Python Execution for Reasoning

14 March 2023

Carl Vondrick

Papers citing "ViperGPT: Visual Inference via Python Execution for Reasoning"

39 / 339 papers shown

Title
RestGPT: Connecting Large Language Models with Real-World RESTful APIs Yifan Song Weimin Xiong Dawei Zhu Wenhao Wu Han Qian ... Cheng Li Ke Wang Rong Yao Ye Tian Sujian Li RALM LLMAG CLL LM&MA 14 56 0 11 Jun 2023
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding Mu Cai Zeyi Huang Yuheng Li Utkarsh Ojha Haohan Wang Yong Jae Lee VLM 14 2 0 09 Jun 2023
Modular Visual Question Answering via Code Generation Sanjay Subramanian Medhini Narasimhan Kushal Khangaonkar Kevin Kaichuang Yang Arsha Nagrani Cordelia Schmid Andy Zeng Trevor Darrell Dan Klein 11 46 0 08 Jun 2023
ChatDB: Augmenting LLMs with Databases as Their Symbolic Memory Chenxu Hu Jie Fu Chenzhuang Du Simian Luo J. Zhao Hang Zhao KELM LLMAG 22 104 0 06 Jun 2023
SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models Hongxin Li Jingran Su Yuntao Chen Qing Li Zhaoxiang Zhang LMTD 37 31 0 30 May 2023
Grammar Prompting for Domain-Specific Language Generation with Large Language Models Bailin Wang Zi Wang Xuezhi Wang Yuan Cao Rif A. Saurous Yoon Kim ReLM LRM 25 52 0 30 May 2023
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey Chen Ling Xujiang Zhao Jiaying Lu Chengyuan Deng Can Zheng ... Chris White Quanquan Gu Jian Pei Carl Yang Liang Zhao ALM 16 125 0 30 May 2023
ANPL: Towards Natural Programming with Interactive Decomposition Di Huang Ziyuan Nan Xingui Hu Pengwei Jin Shaohui Peng ... Rui Zhang Zidong Du Qi Guo Yewen Pu Yunji Chen 20 8 0 29 May 2023
LayoutGPT: Compositional Visual Planning and Generation with Large Language Models Weixi Feng Wanrong Zhu Tsu-jui Fu Varun Jampani Arjun Reddy Akula Xuehai He Sugato Basu X. Wang William Yang Wang MLLM 20 160 0 24 May 2023
Visual Programming for Text-to-Image Generation and Evaluation Jaemin Cho Abhaysinh Zala Mohit Bansal MLLM 16 50 0 24 May 2023
The Art of SOCRATIC QUESTIONING: Recursive Thinking with Large Language Models Jingyuan Qi Zhiyang Xu Ying Shen Minqian Liu dingnan jin Qifan Wang Lifu Huang ReLM LRM KELM 19 11 0 24 May 2023
IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models Haoxuan You Rui Sun Zhecan Wang Long Chen Gengyu Wang Hammad A. Ayyubi Kai-Wei Chang Shih-Fu Chang VLM MLLM LRM 37 43 0 24 May 2023
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models Cheng Qian Chi Han Yi Ren Fung Yujia Qin Zhiyuan Liu Heng Ji LRM 13 28 0 23 May 2023
PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning Xuekai Zhu Biqing Qi Kaiyan Zhang Xingwei Long Zhouhan Lin Bowen Zhou ALM LRM 28 18 0 23 May 2023
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model Siyuan Huang Zhengkai Jiang Hao Dong Yu Qiao Peng Gao Hongsheng Li LM&Ro 22 91 0 18 May 2023
Paxion: Patching Action Knowledge in Video-Language Foundation Models Zhenhailong Wang Ansel Blume Sha Li Genglin Liu Jaemin Cho Zineng Tang Mohit Bansal Heng Ji KELM VGen 9 26 0 18 May 2023
Towards Generalist Robots: A Promising Paradigm via Generative Simulation Zhou Xian Théophile Gervet Zhenjia Xu Yi-Ling Qiao Tsun-Hsuan Wang Yian Wang LM&Ro 52 6 0 17 May 2023
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Mohit Bansal 31 129 0 11 May 2023
Otter: A Multi-Modal Model with In-Context Instruction Tuning Bo-wen Li Yuanhan Zhang Liangyu Chen Jinghao Wang Jingkang Yang Ziwei Liu MLLM 26 497 0 05 May 2023
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model Peng Gao Jiaming Han Renrui Zhang Ziyi Lin Shijie Geng ... Pan Lu Conghui He Xiangyu Yue Hongsheng Li Yu Qiao MLLM 17 542 0 28 Apr 2023
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny VLM MLLM 18 1,877 0 20 Apr 2023
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models Pan Lu Baolin Peng Hao Cheng Michel Galley Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Jianfeng Gao KELM MLLM LRM 39 293 0 19 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 29 4,203 0 17 Apr 2023
Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions Jun Chen Deyao Zhu Kilichbek Haydarov Xiang Li Mohamed Elhoseiny 20 37 0 09 Apr 2023
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face Yongliang Shen Kaitao Song Xu Tan Dongsheng Li Weiming Lu Y. Zhuang MLLM 6 840 0 30 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 23 736 0 28 Mar 2023
Man vs the machine: The Struggle for Effective Text Anonymisation in the Age of Large Language Models Constantinos Patsakis Nikolaos Lykousas 11 9 0 22 Mar 2023
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin E. Azarnasab Faisal Ahmed Zicheng Liu Ce Liu Michael Zeng Lijuan Wang ReLM KELM LRM 15 365 0 20 Mar 2023
Prismer: A Vision-Language Model with Multi-Task Experts Shikun Liu Linxi Fan Edward Johns Zhiding Yu Chaowei Xiao Anima Anandkumar VLM MLLM 34 21 0 04 Mar 2023
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang VLM AI4TS 163 69 0 30 Dec 2022
Reasoning with Language Model Prompting: A Survey Shuofei Qiao Yixin Ou Ningyu Zhang Xiang Chen Yunzhi Yao Shumin Deng Chuanqi Tan Fei Huang Huajun Chen ReLM ELM LRM 44 307 0 19 Dec 2022
A Survey on Natural Language Processing for Programming Qingfu Zhu Xianzhen Luo Fang Liu Cuiyun Gao Wanxiang Che 15 1 0 12 Dec 2022
Retrieval Augmented Visual Question Answering with Outside Knowledge Weizhe Lin Bill Byrne RALM 74 68 0 07 Oct 2022
Binding Language Models in Symbolic Languages Zhoujun Cheng Tianbao Xie Peng Shi Chengzu Li Rahul Nadkarni ... Dragomir R. Radev Mari Ostendorf Luke Zettlemoyer Noah A. Smith Tao Yu LMTD 109 195 0 06 Oct 2022
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 136 73 0 12 Jul 2022
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei ... Chenguang Zhu Derek Hoiem Shih-Fu Chang Mohit Bansal Heng Ji MLLM VLM 167 134 0 22 May 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Coarse-to-Fine Reasoning for Visual Question Answering Binh X. Nguyen Tuong Khanh Long Do Huy Tran Erman Tjiputra Quang-Dieu Tran A. Nguyen NAI 57 35 0 06 Oct 2021
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021