ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension

12 April 2022

Papers citing "ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension"

50 / 89 papers shown

Title
Compositional Image-Text Matching and Retrieval by Grounding Entities Madhukar Reddy Vongala Saurabh Srivastava Jana Kosecka CLIP CoGe VLM 34 0 0 04 May 2025
Visual and textual prompts for enhancing emotion recognition in video Zhifeng Wang Qixuan Zhang Peter Zhang Wenjia Niu Kaihao Zhang Ramesh Sankaranarayana Sabrina Caldwell Tom Gedeon 39 0 0 24 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 36 0 0 01 Apr 2025
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models Wanhua Li Renping Zhou Jiawei Zhou Yingwei Song Johannes Herter Minghan Qin Gao Huang Hanspeter Pfister 3DGS VLM 66 0 0 13 Mar 2025
On the Limitations of Vision-Language Models in Understanding Image Transforms Ahmad Mustafa Anis Hasnain Ali Saquib Sarfraz VLM Presented at ResearchTrend Connect \| VLM on 28 Mar 2025 139 0 0 12 Mar 2025
AA-CLIP: Enhancing Zero-shot Anomaly Detection via Anomaly-Aware CLIP Wenxin Ma Xu Zhang Qingsong Yao Fenghe Tang Chenxu Wu Y. Li Rui Yan Zihang Jiang S. Kevin Zhou VLM 57 0 0 09 Mar 2025
Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding Seil Kang Jinyeong Kim Junhyeok Kim Seong Jae Hwang VLM 85 2 0 08 Mar 2025
SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models Vishal Narnaware Ashmal Vayani Rohit Gupta Swetha Sirnam Mubarak Shah 106 3 0 12 Feb 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 46 3 0 31 Dec 2024
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models Liulei Li Wenguan Wang Y. Yang 37 7 0 26 Oct 2024
Multi-path Exploration and Feedback Adjustment for Text-to-Image Person Retrieval Bin Kang Bin Chen J. T. Wang Yong Xu 19 0 0 26 Oct 2024
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs Yunqiu Xu Linchao Zhu Yi Yang 23 3 0 16 Oct 2024
Structured Spatial Reasoning with Open Vocabulary Object Detectors Negar Nejatishahidin Madhukar Reddy Vongala Jana Kosecka 30 2 0 09 Oct 2024
Visual Prompting in LLMs for Enhancing Emotion Recognition Qixuan Zhang Zhifeng Wang Dylan Zhang Wenjia Niu Sabrina Caldwell Tom Gedeon Yang Liu Zhenyue Qin 25 0 0 03 Oct 2024
SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion Ming Dai Lingfeng Yang Yihao Xu Zhenhua Feng Wankou Yang ObjD 27 9 0 26 Sep 2024
GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models Moreno DÍncà E. Peruzzo Massimiliano Mancini Xingqian Xu Humphrey Shi N. Sebe 39 0 0 29 Aug 2024
Diffusion Feedback Helps CLIP See Better Wenxuan Wang Quan-Sen Sun Fan Zhang Yepeng Tang Jing Liu Xinlong Wang VLM 38 14 0 29 Jul 2024
MaskInversion: Localized Embeddings via Optimization of Explainability Maps Walid Bousselham Sofian Chaybouti Christian Rupprecht Vittorio Ferrari Hilde Kuehne 59 0 0 29 Jul 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 32 5 0 18 Jul 2024
Navi2Gaze: Leveraging Foundation Models for Navigation and Target Gazing Jun Zhu Zihao Du Haotian Xu Fengbo Lan Zilong Zheng Bo Ma Shengjie Wang Tao Zhang 34 4 0 12 Jul 2024
FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance Jiedong Zhuang Jiaqi Hu Lianrui Mu Rui Hu Xiaoyu Liang Jiangnan Ye Haoji Hu CLIP VLM 29 2 0 08 Jul 2024
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation Sayan Nag Koustava Goswami Srikrishna Karanam 42 2 0 02 Jul 2024
Towards Open-World Grasping with Large Vision-Language Models Georgios Tziafas H. Kasaei LM&Ro LRM 27 11 0 26 Jun 2024
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering Yuanyuan Jiang Jianqin Yin 38 1 0 13 May 2024
VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images Anna Penzkofer Lei Shi Andreas Bulling 25 0 0 06 May 2024
Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM Navid Rajabi Jana Kosecka 28 1 0 29 Apr 2024
HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding Linhui Xiao Xiaoshan Yang Fang Peng Yaowei Wang Changsheng Xu ObjD 24 8 0 20 Apr 2024
Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation Qiyuan Dai Sibei Yang 21 8 0 18 Apr 2024
Probing the 3D Awareness of Visual Foundation Models Mohamed El Banani Amit Raj Kevis-Kokitsi Maninis Abhishek Kar Yuanzhen Li Michael Rubinstein Deqing Sun Leonidas J. Guibas Justin Johnson Varun Jampani 28 79 0 12 Apr 2024
OpenBias: Open-set Bias Detection in Text-to-Image Generative Models Moreno DÍncà E. Peruzzo Massimiliano Mancini Dejia Xu Vidit Goel Xingqian Xu Zhangyang Wang Humphrey Shi N. Sebe 53 31 0 11 Apr 2024
Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation Sidra Aleem Fangyijie Wang Mayug Maniparambil Eric Arazo J. Dietlmeier Guénolé Silvestre Kathleen M. Curran Noel E. O'Connor Suzanne Little VLM MedIm 27 10 0 09 Apr 2024
Data-Efficient 3D Visual Grounding via Order-Aware Referring Tung-Yu Wu Sheng-Yu Huang Yu-Chiang Frank Wang 34 0 0 25 Mar 2024
HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning Fucai Ke Zhixi Cai Simindokht Jahangard Weiqing Wang P. D. Haghighi Hamid Rezatofighi LRM 38 9 0 19 Mar 2024
DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM YiXuan Wu Yizhou Wang Shixiang Tang Wenhao Wu Tong He Wanli Ouyang Jian Wu Philip H. S. Torr ObjD VLM 25 18 0 19 Mar 2024
Discriminative Probing and Tuning for Text-to-Image Generation Leigang Qu Wenjie Wang Yongqi Li Hanwang Zhang Liqiang Nie Tat-Seng Chua 31 7 0 07 Mar 2024
FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos S. DarshanSingh Zeeshan Khan Makarand Tapaswi VLM CLIP 26 3 0 15 Jan 2024
Generating Enhanced Negatives for Training Language-Based Object Detectors Shiyu Zhao Long Zhao Vijay Kumar B.G Yumin Suh Dimitris N. Metaxas Manmohan Chandraker S. Schulter ObjD VLM 32 5 0 29 Dec 2023
Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine Kanta Kaneda Shunya Nagashima Ryosuke Korekata Motonari Kambara Komei Sugiura 25 6 0 26 Dec 2023
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection Haozhan Shen Tiancheng Zhao Mingwei Zhu Jianwei Yin VLM ObjD 68 11 0 22 Dec 2023
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want Zeyi Sun Ye Fang Tong Wu Pan Zhang Yuhang Zang Shu Kong Yuanjun Xiong Dahua Lin Jiaqi Wang VLM CLIP 25 82 0 06 Dec 2023
Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence Yajie Liu Pu Ge Haoxiang Ma Shichao Fan Qingjie Liu Di Huang Yunhong Wang 10 0 0 01 Dec 2023
Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions Zeyu Han Fangrui Zhu Qianru Lao Huaizu Jiang ObjD 16 11 0 28 Nov 2023
Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation Biao Gong Siteng Huang Yutong Feng Shiwei Zhang Yuyuan Li Yu Liu DiffM 12 11 0 27 Nov 2023
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback Minghe Gao Juncheng Li Hao Fei Liang Pang Wei Ji Guoming Wang Wenqiao Zhang Siliang Tang Yueting Zhuang 16 8 0 21 Nov 2023
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter Georgios Tziafas Yucheng Xu Arushi Goel M. Kasaei Zhibin Li H. Kasaei 17 23 0 09 Nov 2023
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding Junyan Li Delin Chen Yining Hong Zhenfang Chen Peihao Chen Yikang Shen Chuang Gan MLLM 13 14 0 06 Nov 2023
InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions Hanbo Zhang Jie Xu Yuchen Mo Tao Kong 12 1 0 18 Oct 2023
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation Yimin Yan Xingjian He Wenxuan Wang Sihan Chen J. Liu ObjD VLM 21 2 0 18 Aug 2023
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models Navid Rajabi Jana Kosecka VLM 16 2 0 18 Aug 2023
Mani-GPT: A Generative Model for Interactive Robotic Manipulation Zhe Zhang Weitao Chai Jiankun Wang LM&Ro 15 6 0 03 Aug 2023