Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions

8 August 2023

Wei Ji

Papers citing "Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions"

16 / 16 papers shown

Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing Jinbin Bai Wei Chow L. Yang Xiangtai Li Juncheng Billy Li H. Zhang Shuicheng Yan 101 3 0 05 Dec 2024
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang H. Zhang Yueting Zhuang DiffM 95 15 0 24 Nov 2024
FlexCAD: Unified and Versatile Controllable CAD Generation with Fine-tuned Large Language Models Zhanwei Zhang Shizhao Sun Wenxiao Wang D. Cai Jiang Bian AI4CE 23 1 0 05 Nov 2024
Multidimensional Human Activity Recognition With Large Language Model: A Conceptual Framework Syed Mhamudul Hasan 21 0 0 16 Sep 2024
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models Yue Zhang Hehe Fan Yi Yang 41 3 0 24 May 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 71 136 0 29 Apr 2024
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation Haoyu Zheng Wenqiao Zhang Yaoke Wang Hao Zhou Jiang Liu Juncheng Li Zheqi Lv Siliang Tang Yueting Zhuang Yueting Zhuang 32 1 0 21 Apr 2024
VPGTrans: Transfer Visual Prompt Generator across LLMs Ao Zhang Hao Fei Yuan Yao Wei Ji Li Li Zhiyuan Liu Tat-Seng Chua MLLM VLM 13 85 0 02 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 203 883 0 27 Apr 2023
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models Juncheng Li Minghe Gao Longhui Wei Siliang Tang Wenqiao Zhang Meng Li Wei Ji Qi Tian Tat-Seng Chua Yueting Zhuang VLM VPVLM 27 18 0 12 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
LAVIS: A Library for Language-Vision Intelligence Dongxu Li Junnan Li Hung Le Guangsen Wang Silvio Savarese S. Hoi VLM 98 51 0 15 Sep 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Neural Naturalist: Generating Fine-Grained Image Comparisons Maxwell Forbes Christine Kaeser-Chen Piyush Sharma Serge J. Belongie VLM 50 53 0 09 Sep 2019
Imagine This! Scripts to Compositions to Videos Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi CoGe VGen 109 76 0 10 Apr 2018