Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation

21 July 2023

Zunnan Xu

Yong Zhang

Xiang Wan

Papers citing "Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation"

42 / 42 papers shown

Title
SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model Kaiyu Li Zepeng Xin Li Pang Chao Pang Yupeng Deng Jing Yao Guisong Xia Deyu Meng Zhi Wang Xiangyong Cao VLM LRM 37 0 0 13 Apr 2025
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model Jun Zhou J. Li Zunnan Xu Hanhui Li Yiji Cheng Fa-Ting Hong Qin Lin Qinglin Lu Xiaodan Liang DiffM 65 1 0 25 Mar 2025
Parameter-Efficient Fine-Tuning for Foundation Models Dan Zhang Tao Feng Lilong Xue Yuandong Wang Yuxiao Dong J. Tang 37 7 0 23 Jan 2025
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension Ting Liu Zunnan Xu Yue Hu Liangtao Shi Zhiqiang Wang Quanjun Yin 57 2 0 03 Jan 2025
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey Yunkai Dang Kaichen Huang Jiahao Huo Yibo Yan S. Huang ... Kun Wang Yong Liu Jing Shao Hui Xiong Xuming Hu LRM 96 14 0 03 Dec 2024
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation Claudia Cuttano Gabriele Trivigno Gabriele Rosi Carlo Masone Giuseppe Averta VOS 101 2 0 26 Nov 2024
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation Zhe Dong Yuzhe Sun Yanfeng Gu Tianzhu Liu 20 4 0 11 Oct 2024
A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping Houjian Yu Mingen Li Alireza Rezazadeh Yang Yang Changhyun Choi 40 1 0 28 Sep 2024
PTQ4RIS: Post-Training Quantization for Referring Image Segmentation Xiaoyan Jiang Hang Yang Kaiying Zhu Xihe Qiu Shibo Zhao Sifan Zhou MQ 16 0 0 25 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 30 10 0 01 Sep 2024
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation Xiaoyu Jin Zunnan Xu Mingwen Ou Wenming Yang DiffM 38 7 0 29 Aug 2024
Depth-Weighted Detection of Behaviours of Risk in People with Dementia using Cameras Pratik K. Mishra Irene Ballester Andrea Iaboni B. Ye Kristine Newman Alex Mihailidis Shehroz S. Khan 32 0 0 28 Aug 2024
Image Segmentation in Foundation Model Era: A Survey Tianfei Zhou Fei Zhang Boyu Chang Wenguan Wang Ye Yuan E. Konukoglu Daniel Cremers VLM 40 4 0 23 Aug 2024
DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors Zizheng Yan Jiapeng Zhou Fanpeng Meng Yushuang Wu Lingteng Qiu Zisheng Ye Shuguang Cui Guanying Chen Xiaoguang Han DiffM 34 4 0 23 Jul 2024
Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models Raza Imam Hanan Gani Muhammad Huzaifa Karthik Nandakumar VLM 25 2 0 22 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 50 4 0 10 Jul 2024
Real-world Image Dehazing with Coherence-based Label Generator and Cooperative Unfolding Network Chengyu Fang Chunming He Fengyang Xiao Yulun Zhang Longxiang Tang Yuelin Zhang Kai Li Xiu Li 36 2 0 12 Jun 2024
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference Ting Liu Xuyang Liu Liangtao Shi Zunnan Xu Siteng Huang Yi Xin Quanjun Yin 41 5 0 23 May 2024
DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding Ting Liu Xuyang Liu Siteng Huang Honggang Chen Quanjun Yin Long Qin Donglin Wang Yue Hu 30 5 0 10 May 2024
What does CLIP know about peeling a banana? Claudia Cuttano Gabriele Rosi Gabriele Trivigno Giuseppe Averta 24 2 0 18 Apr 2024
Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation Qiyuan Dai Sibei Yang 21 8 0 18 Apr 2024
Deep Instruction Tuning for Segment Anything Model Xiaorui Huang Gen Luo Chaoyang Zhu Bo Tong Yiyi Zhou Xiaoshuai Sun Rongrong Ji VLM 39 1 0 31 Mar 2024
ReMamber: Referring Image Segmentation with Mamba Twister Yu-Hao Yang Chaofan Ma Jiangchao Yao Zhun Zhong Ya-Qin Zhang Yanfeng Wang Mamba 58 20 0 26 Mar 2024
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey Zeyu Han Chao Gao Jinyang Liu Jeff Zhang Sai Qian Zhang 139 305 0 21 Mar 2024
MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models Zunnan Xu Yukang Lin Haonan Han Sicheng Yang Ronghui Li Yachao Zhang Xiu Li Mamba 46 25 0 14 Mar 2024
$$\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations$ $\text{R}^2$ -Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations Xiang Li Kai Qiu Jinglu Wang Xiaohao Xu Rita Singh Kashu Yamazaki Hao Chen Xiaonan Huang Bhiksha Raj VOS 32 1 0 07 Mar 2024
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner Ying-Dong Zang Chenglong Fu Runlong Cao Didi Zhu Min Zhang Wenjun Hu Lanyun Zhu Tianrun Chen 26 6 0 08 Feb 2024
ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation Shengze Li Jianjian Cao Peng Ye Yuhan Ding Chongjun Tu Tao Chen VLM 19 29 0 23 Jan 2024
Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control Zunnan Xu Yachao Zhang Sicheng Yang Ronghui Li Xiu Li SLR 27 12 0 26 Dec 2023
Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models: A Critical Review and Assessment Lingling Xu Haoran Xie S. J. Qin Xiaohui Tao F. Wang 30 130 0 19 Dec 2023
Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence Yajie Liu Pu Ge Haoxiang Ma Shichao Fan Qingjie Liu Di Huang Yunhong Wang 10 0 0 01 Dec 2023
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation Minhyeok Lee Dogyoon Lee Jungho Lee Suhwan Cho Heeseung Choi Ig-Jae Kim Sangyoun Lee 23 0 0 29 Nov 2023
Consistent123: One Image to Highly Consistent 3D Asset Using Case-Aware Diffusion Priors Yukang Lin Haonan Han Chaoqun Gong Zunnan Xu Yachao Zhang Xiu Li DiffM 11 57 0 29 Sep 2023
Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects Chunming He Kai Li Yachao Zhang Yulun Zhang Z. Guo Xiu Li Martin Danelljan F. I. F. Richard Yu AAML 25 44 0 06 Aug 2023
Extending CLIP's Image-Text Alignment to Referring Image Segmentation Seoyeon Kim Minguk Kang Dongwon Kim Jaesik Park Suha Kwak VLM 12 10 0 14 Jun 2023
Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping Chunming He Kai Li Yachao Zhang Guoxia Xu Longxiang Tang Yulun Zhang Z. Guo Xiu Li 12 91 0 18 May 2023
Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge Zhihong Chen Guanbin Li Xiang Wan 119 65 0 15 Sep 2022
Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training Zhihong Chen Yu Du Jinpeng Hu Yang Liu Guanbin Li Xiang Wan Tsung-Hui Chang 79 111 0 15 Sep 2022
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition Shoufa Chen Chongjian Ge Zhan Tong Jiangliu Wang Yibing Song Jue Wang Ping Luo 141 635 0 26 May 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,110 0 28 Jan 2022
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021