VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual
Grounders

VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders

3 September 2023

Siteng Huang

Papers citing "VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders"

12 / 12 papers shown

Title
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 78 0 0 20 Apr 2025
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension Ting Liu Zunnan Xu Yue Hu Liangtao Shi Zhiqiang Wang Quanjun Yin 59 2 0 03 Jan 2025
Suppress Content Shift: Better Diffusion Features via Off-the-Shelf Generation Techniques Benyuan Meng Qianqian Xu Zitai Wang Zhiyong Yang Xiaochun Cao Qingming Huang 21 0 0 09 Oct 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 34 5 0 18 Jul 2024
Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model Danni Yang Ruohan Dong Jiayi Ji Yiwei Ma Haowei Wang Xiaoshuai Sun Rongrong Ji 44 3 0 07 Jul 2024
DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding Ting Liu Xuyang Liu Siteng Huang Honggang Chen Quanjun Yin Long Qin Donglin Wang Yue Hu 35 5 0 10 May 2024
SATO: Stable Text-to-Motion Framework Wenshuo Chen Hongru Xiao Erhang Zhang Lijie Hu Lei Wang Mengyuan Liu C. L. P. Chen 35 4 0 02 May 2024
Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models Konstantinos Vilouras Pedro Sanchez Alison Q. OÑeil Sotirios A. Tsaftaris MedIm 39 2 0 19 Apr 2024
UniGS: Unified Representation for Image Generation and Segmentation Lu Qi Lehan Yang Weidong Guo Yu-Syuan Xu Bo Du Varun Jampani Ming-Hsuan Yang 27 17 0 04 Dec 2023
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions Zeyu Han Fangrui Zhu Qianru Lao Huaizu Jiang ObjD 27 11 0 28 Nov 2023
Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu ObjD VLM MDE 160 214 0 03 Mar 2023
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 202 221 0 24 Sep 2021