Vision-Language Transformer and Query Generation for Referring Segmentation

12 August 2021

Papers citing "Vision-Language Transformer and Query Generation for Referring Segmentation"

50 / 173 papers shown

Title
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation Danni Yang Jiayi Ji Yiwei Ma Tianyu Guo Haowei Wang Xiaoshuai Sun Rongrong Ji ISeg VLM 27 5 0 03 Jun 2024
Correlation Matching Transformation Transformers for UHD Image Restoration Cong Wang Jinshan Pan Wei Wang Gang Fu Siyuan Liang Mengzhu Wang Xiaomei Wu Jun Liu ViT 37 24 0 02 Jun 2024
HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation Zhuoyan Luo Yinghao Wu Yong-Jin Liu Yicheng Xiao Xiao-Ping Zhang Yujiu Yang 27 0 0 24 May 2024
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation Weize Li Zhicheng Zhao Haochen Bai Fei Su 25 0 0 24 May 2024
Unifying 3D Vision-Language Understanding via Promptable Queries Ziyu Zhu Zhuofan Zhang Xiaojian Ma Xuesong Niu Yixin Chen Baoxiong Jia Zhidong Deng Siyuan Huang Qing Li 40 21 0 19 May 2024
Spatial Semantic Recurrent Mining for Referring Image Segmentation Jiaxing Yang Lihe Zhang Jiayu Sun Huchuan Lu 21 0 0 15 May 2024
Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation Qiyuan Dai Sibei Yang 16 8 0 18 Apr 2024
LaSagnA: Language-based Segmentation Assistant for Complex Queries Cong Wei Haoxian Tan Yujie Zhong Yujiu Yang Lin Ma 34 14 0 12 Apr 2024
Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation Yichen Yan Xingjian He Sihan Chen Jing Liu ObjD 28 0 0 12 Apr 2024
Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation Shuting He Henghui Ding VOS 27 23 0 04 Apr 2024
Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation Xiaoshuang Huang Hongxiang Li Meng Cao Long Chen Chenyu You Dong An VLM 41 5 0 03 Apr 2024
ReMamber: Referring Image Segmentation with Mamba Twister Yu-Hao Yang Chaofan Ma Jiangchao Yao Zhun Zhong Ya-Qin Zhang Yanfeng Wang Mamba 58 20 0 26 Mar 2024
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model Zheng-Wei Zhang Yeyao Ma Enming Zhang Xiang Bai VLM MLLM 32 29 0 21 Mar 2024
Empowering Segmentation Ability to Multi-modal Large Language Models Yuqi Yang Peng-Tao Jiang Jing Wang Hao Zhang Kai Zhao Jinwei Chen Bo-wen Li LRM VLM 24 3 0 21 Mar 2024
ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 28 1 0 15 Mar 2024
Rethinking Referring Object Removal Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 29 0 0 14 Mar 2024
$$\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations$ $\text{R}^2$ -Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations Xiang Li Kai Qiu Jinglu Wang Xiaohao Xu Rita Singh Kashu Yamazaki Hao Chen Xiaonan Huang Bhiksha Raj VOS 32 1 0 07 Mar 2024
LLMBind: A Unified Modality-Task Integration Framework Bin Zhu Munan Ning Peng Jin Bin Lin Jinfa Huang ... Junwu Zhang Zhenyu Tang Mingjun Pan Xing Zhou Li-ming Yuan MLLM 26 6 0 22 Feb 2024
Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions Wenxuan Wang Yisi Zhang Xingjian He Yichen Yan Zijia Zhao Xinlong Wang Jing Liu LM&Ro 20 4 0 17 Feb 2024
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner Ying-Dong Zang Chenglong Fu Runlong Cao Didi Zhu Min Zhang Wenjun Hu Lanyun Zhu Tianrun Chen 19 6 0 08 Feb 2024
Collaborative Position Reasoning Network for Referring Image Segmentation Jianjian Cao Beiya Dai Yulin Li Xiameng Qin Jingdong Wang 23 0 0 22 Jan 2024
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) Zongxin Yang Guikun Chen Xiaodi Li Wenguan Wang Yi Yang LM&Ro LLMAG 43 35 0 16 Jan 2024
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces Jiannan Wu Yi-Xin Jiang Bin Yan Huchuan Lu Zehuan Yuan Ping Luo VOS 21 17 0 25 Dec 2023
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model Yuehao Yin Huiyan Qi B. Zhu Jingjing Chen Yu-Gang Jiang Chong-Wah Ngo 11 17 0 22 Dec 2023
SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation Wenxi Yue Jing Zhang Kun Hu Qiuxia Wu Zongyuan Ge Yong Xia Jiebo Luo Zhiyong Wang 22 3 0 22 Dec 2023
Mask Grounding for Referring Image Segmentation Yong Xien Chng Henry Zheng Yizeng Han Xuchong Qiu Gao Huang ISeg ObjD 19 15 0 19 Dec 2023
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation Sihan Liu Yiwei Ma Xiaoqing Zhang Haowei Wang Jiayi Ji Xiaoshuai Sun Rongrong Ji 10 8 0 19 Dec 2023
GSVA: Generalized Segmentation via Multimodal Large Language Models Zhuofan Xia Dongchen Han Yizeng Han Xuran Pan Shiji Song Gao Huang VLM 23 40 0 15 Dec 2023
See, Say, and Segment: Teaching LMMs to Overcome False Premises Tsung-Han Wu Giscard Biamby David M. Chan Lisa Dunlap Ritwik Gupta Xudong Wang Joseph E. Gonzalez Trevor Darrell VLM MLLM 30 18 0 13 Dec 2023
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation Wenxuan Wang Tongtian Yue Yisi Zhang Longteng Guo Xingjian He Xinlong Wang Jing Liu ObjD 8 12 0 13 Dec 2023
Universal Segmentation at Arbitrary Granularity with Language Instruction Yong Liu Cairong Zhang Yitong Wang Jiahao Wang Yujiu Yang Yansong Tang VLM VOS 44 15 0 04 Dec 2023
PixelLM: Pixel Reasoning with Large Multimodal Model Zhongwei Ren Zhicheng Huang Yunchao Wei Yao-Min Zhao Dongmei Fu Jiashi Feng Xiaojie Jin VLM MLLM LRM 28 78 0 04 Dec 2023
Towards Generalizable Referring Image Segmentation via Target Prompt and Visual Coherence Yajie Liu Pu Ge Haoxiang Ma Shichao Fan Qingjie Liu Di Huang Yunhong Wang 10 0 0 01 Dec 2023
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation Minhyeok Lee Dogyoon Lee Jungho Lee Suhwan Cho Heeseung Choi Ig-Jae Kim Sangyoun Lee 23 0 0 29 Nov 2023
VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search Shuting He Hao Luo Wei Jiang Xudong Jiang Henghui Ding 11 37 0 13 Nov 2023
PerceptionGPT: Effectively Fusing Visual Perception into LLM Renjie Pi Lewei Yao Jiahui Gao Jipeng Zhang Tong Zhang MLLM 18 26 0 11 Nov 2023
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter Georgios Tziafas Yucheng Xu Arushi Goel M. Kasaei Zhibin Li H. Kasaei 17 22 0 09 Nov 2023
NExT-Chat: An LMM for Chat, Detection and Segmentation Ao Zhang Yuan Yao Wei Ji Zhiyuan Liu Tat-Seng Chua MLLM VLM 40 51 0 08 Nov 2023
Text Augmented Spatial-aware Zero-shot Referring Image Segmentation Yuchen Suo Linchao Zhu Yi Yang 18 12 0 27 Oct 2023
RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments Mengxue Qu Yu-Huan Wu Wu Liu Xiaodan Liang Jingkuan Song Yao-Min Zhao Yunchao Wei 17 5 0 26 Oct 2023
Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network Yiming Lin Xiao-Bo Jin Qiufeng Wang Kaizhu Huang 22 3 0 25 Oct 2023
Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation Francisco Eiras Kemal Oksuz Adel Bibi Philip H. S. Torr P. Dokania 17 1 0 20 Oct 2023
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning Haowei Wang Jiayi Ji Tianyu Guo Yilong Yang Yiyi Zhou Xiaoshuai Sun Rongrong Ji 14 5 0 17 Oct 2023
Towards Complex-query Referring Image Segmentation: A Novel Benchmark Wei Ji Li Li Marco Pleines Xiangyan Liu Xu Yang Juncheng Billy Li Roger Zimmermann 21 7 0 29 Sep 2023
Region Generation and Assessment Network for Occluded Person Re-Identification Shuting He Weihua Chen Kai Wang Haowen Luo F. Wang Wei Jiang Henghui Ding 12 34 0 07 Sep 2023
Temporal Collection and Distribution for Referring Video Object Segmentation Jiajin Tang Ge Zheng Sibei Yang VOS 18 14 0 07 Sep 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 19 2 0 06 Sep 2023
Contrastive Grouping with Transformer for Referring Image Segmentation Jiajin Tang Ge Zheng Cheng Shi Sibei Yang ViT 11 24 0 02 Sep 2023
3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation Changli Wu Yiwei Ma Qi Chen Haowei Wang Gen Luo Jiayi Ji Xiaoshuai Sun 3DV 31 18 0 31 Aug 2023
GREC: Generalized Referring Expression Comprehension Shuting He Henghui Ding Chang Liu Xudong Jiang ObjD 19 14 0 30 Aug 2023