Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

8 March 2023

Papers citing "Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models"

28 / 78 papers shown

Title
Fashion Matrix: Editing Photos by Just Talking Zheng Chong Xujie Zhang Fuwei Zhao Zhenyu Xie Xiaodan Liang DiffM 13 2 0 25 Jul 2023
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs Yang Zhao Zhijie Lin Daquan Zhou Zilong Huang Jiashi Feng Bingyi Kang MLLM 31 106 0 17 Jul 2023
Mini-Giants: "Small" Language Models and Open Source Win-Win Zhengping Zhou Lezhi Li Xinxi Chen Andy Li SyDa ALM MoE 24 5 0 17 Jul 2023
GeoGPT: Understanding and Processing Geospatial Tasks through An Autonomous GPT Yifan Zhang Cheng Wei Shangyou Wu Zhengting He Wenhao Yu 20 25 0 16 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo VLM MLLM 80 223 0 07 Jul 2023
Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models Lingxi Xie Longhui Wei Xiaopeng Zhang Kaifeng Bi Xiaotao Gu Jianlong Chang Qi Tian 26 6 0 14 Jun 2023
Valley: Video Assistant with Large Language model Enhanced abilitY Ruipu Luo Ziwang Zhao Min Yang Junwei Dong Da Li Pengcheng Lu Tao Wang Linmei Hu Ming-Hui Qiu MLLM 38 188 0 12 Jun 2023
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models Gengze Zhou Yicong Hong Qi Wu ELM LM&Ro LLMAG LRM 23 138 0 26 May 2023
IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models Haoxuan You Rui Sun Zhecan Wang Long Chen Gengyu Wang Hammad A. Ayyubi Kai-Wei Chang Shih-Fu Chang VLM MLLM LRM 37 43 0 24 May 2023
Making Language Models Better Tool Learners with Execution Feedback Shuofei Qiao Honghao Gui Chengfei Lv Qianghuai Jia Huajun Chen Ningyu Zhang LLMAG 29 45 0 22 May 2023
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering Fangkai Yang Pu Zhao Zezhong Wang Lu Wang Jue Zhang Mohit Garg Qingwei Lin Saravan Rajmohan Dongmei Zhang 26 47 0 19 May 2023
Small Models are Valuable Plug-ins for Large Language Models Canwen Xu Yichong Xu Shuohang Wang Yang Liu Chenguang Zhu Julian McAuley LLMAG 34 42 0 15 May 2023
Augmented Large Language Models with Parametric Knowledge Guiding Ziyang Luo Can Xu Pu Zhao Xiubo Geng Chongyang Tao Jing Ma Qingwei Lin Daxin Jiang KELM RALM 30 44 0 08 May 2023
OpenAGI: When LLM Meets Domain Experts Yingqiang Ge Wenyue Hua Kai Mei Jianchao Ji Juntao Tan Shuyuan Xu Zelong Li Yongfeng Zhang VLM LRM 31 206 0 10 Apr 2023
Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language Models Emilio Ferrara SILM 12 244 0 07 Apr 2023
ViperGPT: Visual Inference via Python Execution for Reasoning Dídac Surís Sachit Menon Carl Vondrick MLLM LRM ReLM 19 428 0 14 Mar 2023
Reasoning with Language Model Prompting: A Survey Shuofei Qiao Yixin Ou Ningyu Zhang Xiang Chen Yunzhi Yao Shumin Deng Chuanqi Tan Fei Huang Huajun Chen ReLM ELM LRM 44 307 0 19 Dec 2022
Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features Changde Du Kaicheng Fu Jinpeng Li Huiguang He VLM 26 66 0 13 Oct 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 207 1,089 0 20 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 4,048 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 142 360 0 24 Jan 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 252 157 0 02 Jan 2021
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,191 0 21 Nov 2016