Joint Visual and Text Prompting for Improved Object-Centric Perception
with Multimodal Large Language Models

Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models

6 April 2024

Zuozhu Liu

Papers citing "Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models"

7 / 7 papers shown

Title
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios Lu Qiu Yuying Ge Yi Chen Yixiao Ge Ying Shan Xihui Liu LLMAG LRM 91 5 0 05 Dec 2024
Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models J. Liu Yumeng Li Boyuan Xiao Yichang Jian Ziang Qin Tianjia Shao Yao-Xiang Ding Kun Zhou MLLM LRM 95 2 0 27 Nov 2024
A Survey of Hallucination in Large Visual Language Models Wei Lan Wenyi Chen Qingfeng Chen Shirui Pan Huiyu Zhou Yi-Lun Pan LRM 28 4 0 20 Oct 2024
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models Qiji Zhou Ruochen Zhou Zike Hu Panzhong Lu Siyang Gao Yue Zhang LRM 38 12 0 22 May 2024
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model Xiao-wen Dong Pan Zhang Yuhang Zang Yuhang Cao Bin Wang ... Conghui He Xingcheng Zhang Yu Qiao Dahua Lin Jiaqi Wang VLM MLLM 76 242 0 29 Jan 2024
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration Qinghao Ye Haiyang Xu Jiabo Ye Mingshi Yan Anwen Hu Haowei Liu Qi Qian Ji Zhang Fei Huang Jingren Zhou MLLM VLM 116 367 0 07 Nov 2023
SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer Tu Vu Brian Lester Noah Constant Rami Al-Rfou Daniel Matthew Cer VLM LRM 134 276 0 15 Oct 2021