Learning Visual Grounding from Generative Vision and Language Model

Learning Visual Grounding from Generative Vision and Language Model

18 July 2024

Shijie Wang

Papers citing "Learning Visual Grounding from Generative Vision and Language Model"

11 / 11 papers shown

Title
CAMU: Context Augmentation for Meme Understanding Girish A. Koushik Diptesh Kanojia Helen Treharne Aditya Joshi VLM 89 0 0 24 Apr 2025
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models Weiye Xu J. Wang Weiyun Wang Zhe Chen Wengang Zhou ... Xiaohua Wang Xizhou Zhu Wenhai Wang Jifeng Dai Jinguo Zhu VLM LRM 48 0 0 21 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 36 0 0 01 Apr 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 39 3 0 31 Dec 2024
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 85 0 0 01 Dec 2024
An Open and Comprehensive Pipeline for Unified Object Grounding and Detection Xiangyu Zhao Yicheng Chen Shilin Xu Xiangtai Li Xinjiang Wang Yining Li Haian Huang ObjD AI4CE 30 27 0 04 Jan 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 186 218 0 24 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 146 282 0 19 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019