MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

14 October 2023

Pengchuan Zhang

Raghuraman Krishnamoorthi

Mohamed Elhoseiny

Papers citing "MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning"

9 / 9 papers shown

Title
Zoomer: Adaptive Image Focus Optimization for Black-box MLLM Jiaxu Qian Chendong Wang Y. Yang Chaoyun Zhang Huiqiang Jiang ... Saravan Rajmohan Dongmei Zhang Y. Yang Qi Zhang Lili Qiu VLM 52 0 0 30 Apr 2025
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 63 0 0 29 Apr 2025
FaceInsight: A Multimodal Large Language Model for Face Perception Jingzhi Li Changjiang Luo Ruoyu Chen Hua Zhang Wenqi Ren Jianhou Gan Xiaochun Cao CVBM LRM 47 0 0 22 Apr 2025
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation Q. He Jinlong Peng P. Xu Boyuan Jiang Xiaobin Hu ... Y. Liu Y. Wang Chengjie Wang X. Li J. Zhang DiffM 89 1 0 04 Dec 2024
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 63 29 0 26 Sep 2024
StoryGPT-V: Large Language Models as Consistent Story Visualizers Xiaoqian Shen Mohamed Elhoseiny VLM 77 9 0 04 Dec 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 195 575 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 235 1,899 0 30 Jan 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 298 8,441 0 04 Mar 2022