Title
VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning Run Luo Renke Shan Longze Chen Z. Liu Lu Wang Min Yang Xiaobo Xia MLLM VLM 89 0 0 28 Apr 2025
Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation Jiajie Su Qiyong Zhong Yunshan Ma Weiming Liu Chaochao Chen Xiaolin Zheng Jianwei Yin Tat-Seng Chua 24 0 0 13 Apr 2025
Learning to Instruct for Visual Instruction Tuning Zhihan Zhou Feng Hong Jiaan Luo Jiangchao Yao Dongsheng Li Bo Han Y. Zhang Yanfeng Wang VLM 59 0 0 28 Mar 2025
Continual Multimodal Contrastive Learning Xiaohao Liu Xiaobo Xia See-Kiong Ng Tat-Seng Chua CLL 49 0 0 19 Mar 2025
LaVin-DiT: Large Vision Diffusion Transformer Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang M. Gong Tongliang Liu 92 6 0 18 Nov 2024
IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking Run Luo Zikai Song Longze Chen Yunshui Li Min Yang Wei-Guo Yang 28 0 0 30 Oct 2024
Law of Vision Representation in MLLMs Shijia Yang Bohan Zhai Quanzeng You Jianbo Yuan Hongxia Yang Chenfeng Xu 36 9 0 29 Aug 2024
Autogenic Language Embedding for Coherent Point Tracking Zikai Song Ying Tang Run Luo Lintao Ma Junqing Yu Yi-Ping Phoebe Chen Wei Yang 35 3 0 30 Jul 2024
Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning Xuxin Cheng Wanshi Xu Zhihong Zhu Hongxiang Li Yuexian Zou 45 13 0 31 May 2024
Few-Shot Adversarial Prompt Learning on Vision-Language Models Yiwei Zhou Xiaobo Xia Zhiwei Lin Bo Han Tongliang Liu VLM 26 10 0 21 Mar 2024
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Changyao Tian Xizhou Zhu Yuwen Xiong Weiyun Wang Zhe Chen ... Tong Lu Jie Zhou Hongsheng Li Yu Qiao Jifeng Dai AuLLM 77 40 0 18 Jan 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 3,790 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021