Vision-Language Transformer and Query Generation for Referring Segmentation

12 August 2021

Papers citing "Vision-Language Transformer and Query Generation for Referring Segmentation"

50 / 173 papers shown

Title
RESAnything: Attribute Prompting for Arbitrary Referring Segmentation Ruiqi Wang Hao Zhang VLM 52 0 0 03 May 2025
PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild Henghui Ding Chang Liu Nikhila Ravi Shuting He Y. Wei ... Haobo Yuan X. Li Tao Zhang Lu Qi Ming Yang 25 0 0 15 Apr 2025
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding Tao Zhang X. Li Zilong Huang Y. Li Weixian Lei XueQing Deng Shihao Chen S. Ji Jiashi Feng MLLM LRM 45 1 0 14 Apr 2025
SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model Kaiyu Li Zepeng Xin Li Pang Chao Pang Yupeng Deng Jing Yao Guisong Xia Deyu Meng Zhi Wang Xiangyong Cao VLM LRM 37 0 0 13 Apr 2025
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations Junli Liu Qizhi Chen Z. Wang Yiwen Tang Yiting Zhang Chi Yan Dong Wang X. Li Bin Zhao CoGe 47 0 0 10 Apr 2025
SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation Hritam Basak Zhaozheng Yin VLM 31 0 0 08 Apr 2025
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities Jing Liu Wenxuan Wang Yisi Zhang Yepeng Tang Xingjian He Longteng Guo Tongtian Yue Xinlong Wang ObjD 40 0 0 02 Apr 2025
POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation Lanyun Zhu Tianrun Chen Qianxiong Xu Xuanyi Liu Deyi Ji Haiyang Wu De Wen Soh J. Liu VLM LRM 44 0 0 01 Apr 2025
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025 Tianming Liang Haichao Jiang Wei-Shi Zheng Jian-Fang Hu 39 0 0 30 Mar 2025
CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation Maofu Liu Xin Jiang Xiaokang Zhang 39 0 0 30 Mar 2025
MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation Donggon Jang Yucheol Cho Suin Lee Taehyeon Kim Dae-Shik Kim VLM 65 1 0 18 Mar 2025
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics Chen Liu Liying Yang Peike Li Dadong Wang Lincheng Li Xin Yu VOS 94 0 0 17 Mar 2025
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts Shiu-hong Kao Yu-Wing Tai Chi-Keung Tang LRM MLLM 49 0 0 10 Mar 2025
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding Yan Tai Luhao Zhu Zhiqiang Chen Ynan Ding Yiying Dong Xiaohong Liu Guodong Guo MLLM ObjD 49 0 0 10 Mar 2025
Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation Suhwan Cho Seunghoon Lee Minhyeok Lee Jungho Lee Sangyoun Lee VOS 77 0 0 05 Mar 2025
IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis Y. Wang Jingchen Ni Yong-Jin Liu Chun Yuan Yansong Tang 39 1 0 02 Mar 2025
MPG-SAM 2: Adapting SAM 2 with Mask Priors and Global Context for Referring Video Object Segmentation Fu Rong Meng Lan Q. Zhang L. Zhang VOS VGen 65 1 0 23 Jan 2025
Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension Yaxian Wang Henghui Ding Shuting He Xudong Jiang Bifan Wei Jun Liu ObjD 30 1 0 03 Jan 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 44 3 0 31 Dec 2024
InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models Cong Wei Yujie Zhong Haoxian Tan Yingsen Zeng Y. Liu Zheng Zhao Yujiu Yang MLLM VLM VOS 85 2 0 18 Dec 2024
Referring Video Object Segmentation via Language-aligned Track Selection Seongchan Kim Woojeong Jin Sangbeom Lim Heeji Yoon Hyunwook Choi Seungryong Kim VOS 87 0 0 02 Dec 2024
ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model Kunyang Han Yibo Hu Mengxue Qu Hailin Shi Yao Zhao Y. X. Wei MLLM VLM 3DV 80 1 0 29 Nov 2024
HyperSeg: Towards Universal Visual Segmentation with Large Language Model Cong Wei Yujie Zhong Haoxian Tan Y. Liu Zheng Zhao Jie Hu Yujiu Yang VOS MLLM VLM LRM 84 1 0 26 Nov 2024
Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image Segmentation Seongsu Ha Chaeyun Kim Donghwa Kim Junho Lee Sangho Lee Joonseok Lee 45 2 0 03 Nov 2024
SegLLM: Multi-round Reasoning Segmentation XuDong Wang Shaolun Zhang Shufan Li Konstantinos Kallidromitis Kehan Li Yusuke Kato Kazuki Kozuka Trevor Darrell VLM LRM 50 1 0 24 Oct 2024
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation Xuexun Liu Xiaoxu Xu Jinlong Li Qiudan Zhang Xu Wang N. Sebe Lin Ma 33 0 0 17 Oct 2024
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling Linhui Xiao Xiaoshan Yang Fang Peng Yaowei Wang Changsheng Xu ObjD 21 5 0 10 Oct 2024
Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images Longchao Da Rui Wang Xiaojian Xu Parminder Bhatia Taha A. Kass-Hout Hua Wei Cao Xiao VLM MedIm 27 0 0 02 Oct 2024
Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension Zaiquan Yang Yuhao Liu Jiaying Lin Gerhard Hancke Rynson W. H. Lau 26 1 0 02 Oct 2024
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos Zechen Bai Tong He Haiyang Mei Pichao Wang Ziteng Gao Joya Chen Lei Liu Zheng Zhang Mike Zheng Shou VLM VOS MLLM 32 17 0 29 Sep 2024
Fully Aligned Network for Referring Image Segmentation Yong-Jin Liu Ruihao Xu Yansong Tang 18 0 0 29 Sep 2024
A Parameter-Efficient Tuning Framework for Language-guided Object Grounding and Robot Grasping Houjian Yu Mingen Li Alireza Rezazadeh Yang Yang Changhyun Choi 38 1 0 28 Sep 2024
SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion Ming Dai Lingfeng Yang Yihao Xu Zhenhua Feng Wankou Yang ObjD 24 9 0 26 Sep 2024
PTQ4RIS: Post-Training Quantization for Referring Image Segmentation Xiaoyan Jiang Hang Yang Kaiying Zhu Xihe Qiu Shibo Zhao Sifan Zhou MQ 16 0 0 25 Sep 2024
Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model Li Zhou Xu Yuan Zenghui Sun Zikun Zhou Jingsong Lan VLM MLLM 38 2 0 20 Sep 2024
Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding Hongyu Li Tianrui Hui Zihan Ding Jing Zhang Bin Ma Xiaoming Wei Jizhong Han Si Liu DiffM 37 0 0 12 Sep 2024
LSVOS Challenge Report: Large-scale Complex and Long Video Object Segmentation Henghui Ding Lingyi Hong Chang Liu Ning Xu L. Yang ... Bin Cao Yisi Zhang Hanyi Wang Xingjian He Jing Liu VOS 24 2 0 09 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 30 10 0 01 Sep 2024
Language-guided Scale-aware MedSegmentor for Lesion Segmentation in Medical Imaging Shuyi Ouyang Jinyang Zhang Xiangye Lin Xilai Wang Qingqing Chen Yen-Wei Chen Lanfen Lin VLM 30 0 0 30 Aug 2024
Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation Yubin Cho Hyunwoo Yu Suk-Ju Kang 51 18 0 14 Aug 2024
UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model Zhaowei Li Wei Wang Yiqing Cai Xu Qi Pengyu Wang Dong Zhang Hang Song Botian Jiang Zhida Huang Tao Wang AIFin LRM 35 3 0 05 Aug 2024
3D-GRES: Generalized 3D Referring Expression Segmentation Changli Wu Yihang Liu Jiayi Ji Yiwei Ma Haowei Wang Gen Luo Henghui Ding Xiaoshuai Sun Rongrong Ji 34 6 0 30 Jul 2024
RefMask3D: Language-Guided Transformer for 3D Referring Segmentation Shuting He Henghui Ding 44 10 0 25 Jul 2024
SegPoint: Segment Any Point Cloud via Large Language Model Shuting He Henghui Ding Xudong Jiang Bihan Wen 3DV MLLM 3DPC 35 17 0 18 Jul 2024
VISA: Reasoning Video Object Segmentation via Large Language Models Cilin Yan Haochen Wang Shilin Yan Xiaolong Jiang Yao Hu Guoliang Kang Weidi Xie E. Gavves LRM VLM VOS 32 28 0 16 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 48 4 0 10 Jul 2024
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation Sayan Nag Koustava Goswami Srikrishna Karanam 42 2 0 02 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 51 23 0 28 Jun 2024
PVUW 2024 Challenge on Complex Video Understanding: Methods and Results Henghui Ding Chang Liu Yunchao Wei Nikhila Ravi Shuting He ... Bo-Lu Zhao Jing Liu Feiyu Pan Hao Fang Xiankai Lu 43 8 0 24 Jun 2024
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation Bin Cao Yisi Zhang Xuanxu Lin Xingjian He Bo-Lu Zhao Jing Liu 45 2 0 20 Jun 2024