Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing

3 March 2019

Papers citing "Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing"

50 / 91 papers shown

Title
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration X. J. Yang J. Liu Peng Wang Guoqing Wang Y. Yang H. Shen ObjD 79 0 0 27 Feb 2025
Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension Yaxian Wang Henghui Ding Shuting He Xudong Jiang Bifan Wei Jun Liu ObjD 35 1 0 03 Jan 2025
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 46 3 0 31 Dec 2024
To Predict or Not To Predict? Proportionally Masked Autoencoders for Tabular Data Imputation Jungkyu Kim Kibok Lee Taeyoung Park 32 1 0 26 Dec 2024
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 129 0 0 01 Dec 2024
AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding Hao Guo Wei Fan Baichun Wei Jianfei Zhu Jin Tian Chunzhi Yi Feng Jiang 34 0 0 13 Nov 2024
Phrase Decoupling Cross-Modal Hierarchical Matching and Progressive Position Correction for Visual Grounding Minghong Xie M. Wang Huafeng Li Yafei Zhang Dapeng Tao Z. Yu ObjD 35 1 0 31 Oct 2024
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling Linhui Xiao Xiaoshan Yang Fang Peng Yaowei Wang Changsheng Xu ObjD 24 5 0 10 Oct 2024
SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion Ming Dai Lingfeng Yang Yihao Xu Zhenhua Feng Wankou Yang ObjD 27 9 0 26 Sep 2024
3D-GRES: Generalized 3D Referring Expression Segmentation Changli Wu Yihang Liu Jiayi Ji Yiwei Ma Haowei Wang Gen Luo Henghui Ding Xiaoshuai Sun Rongrong Ji 34 6 0 30 Jul 2024
ScanFormer: Referring Expression Comprehension by Iteratively Scanning Wei Su Peihan Miao Huanzhang Dou Xi Li ObjD 37 7 0 26 Jun 2024
HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding Linhui Xiao Xiaoshan Yang Fang Peng Yaowei Wang Changsheng Xu ObjD 29 8 0 20 Apr 2024
Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal Distillation Jiaxi Wang Wenhui Hu Xueyang Liu Beihu Wu Yuting Qiu Yingying Cai 10 0 0 29 Dec 2023
Mono3DVG: 3D Visual Grounding in Monocular Images Yangfan Zhan Yuan. Yuan Zhitong Xiong MDE 23 9 0 13 Dec 2023
Continual Referring Expression Comprehension via Dual Modular Memorization Hengtao Shen Cheng Chen Peng Wang Lianli Gao M. Wang Jingkuan Song ObjD 25 3 0 25 Nov 2023
Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models Xiaoyu Yang Lijian Xu Hao Sun Hongsheng Li Shaoting Zhang ObjD 25 4 0 21 Nov 2023
NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning Haowei Wang Jiayi Ji Tianyu Guo Yilong Yang Yiyi Zhou Xiaoshuai Sun Rongrong Ji 25 5 0 17 Oct 2023
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search Yuanmin Tang Daling Wang Keke Gai Wenfang Wu Yifei Zhang Gang Xiong Qi Wu 21 4 0 28 Sep 2023
Multi-modal Domain Adaptation for REG via Relation Transfer Yifan Ding Liqiang Wang Boqing Gong 17 0 0 23 Sep 2023
Spatial and Visual Perspective-Taking via View Rotation and Relation Reasoning for Embodied Reference Understanding Cheng Shi Sibei Yang LRM 26 6 0 03 Sep 2023
Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment Jiamin Zhuang Jing Yu Yang Ding Xiangyang Qu Yue Hu 19 9 0 27 Aug 2023
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method Zhihong Chen Ruifei Zhang Yibing Song Xiang Wan Guanbin Li 20 15 0 21 Jul 2023
Language Adaptive Weight Generation for Multi-task Visual Grounding Wei Su Peihan Miao Huanzhang Dou Gaoang Wang Liang Qiao Zheyang Li Xi Li ObjD 25 32 0 06 Jun 2023
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding Chenchi Zhang Jun Xiao Lei Chen Jian Shao Long Chen VLM LRM 22 2 0 19 May 2023
Parallel Vertex Diffusion for Unified Visual Grounding Ze-Long Cheng Kehan Li Peng Jin Xiang Ji Li-ming Yuan Chang-rui Liu Jie Chen DiffM 34 25 0 13 Mar 2023
Universal Instance Perception as Object Discovery and Retrieval B. Yan Yi-Xin Jiang Jiannan Wu D. Wang Ping Luo Zehuan Yuan Huchuan Lu VOS VLM LRM 27 161 0 12 Mar 2023
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning Hui Li Mingjie Sun Jimin Xiao Eng Gee Lim Yao-Min Zhao 29 19 0 17 Dec 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 21 21 0 15 Nov 2022
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data Yangfan Zhan Zhitong Xiong Yuan. Yuan 66 106 0 23 Oct 2022
Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding Yang Jin Yongzhi Li Zehuan Yuan Yadong Mu 29 32 0 27 Sep 2022
PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding Zihan Ding Zixiang Ding Tianrui Hui Junshi Huang Xiaoming Wei Xiaolin K. Wei Si Liu 12 12 0 11 Aug 2022
Correspondence Matters for Video Referring Expression Comprehension Meng Cao Ji Jiang Long Chen Yuexian Zou VOS 17 20 0 21 Jul 2022
Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding Xuejing Liu Liang Li Shuhui Wang Zhengjun Zha Dechao Meng Qi Tian Qingming Huang 14 42 0 18 Jul 2022
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases Zhihao Yuan Xu Yan Zhuo Li Xuhao Li Yao Guo Shuguang Cui Zhen Li 26 17 0 05 Jul 2022
RefCrowd: Grounding the Target in Crowd with Referring Expressions Heqian Qiu Hongliang Li Taijin Zhao Lanxiao Wang Qingbo Wu Fanman Meng ObjD 19 6 0 16 Jun 2022
TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer Jiajun Deng Zhengyuan Yang Daqing Liu Tianlang Chen Wen-gang Zhou Yanyong Zhang Houqiang Li Wanli Ouyang ViT 25 50 0 14 Jun 2022
Referring Image Matting Jizhizi Li Jing Zhang Dacheng Tao ObjD VLM 18 22 0 10 Jun 2022
Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension Peihan Miao Wei Su Gaoang Wang Xuewei Li Xi Li ObjD 17 9 0 21 Apr 2022
A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression Comprehension Gen Luo Yiyi Zhou Jiamu Sun Xiaoshuai Sun Rongrong Ji ObjD 8 10 0 17 Apr 2022
FindIt: Generalized Localization with Natural Language Queries Weicheng Kuo Fred Bertsch Wei Li A. Piergiovanni M. Saffar A. Angelova ObjD 11 17 0 31 Mar 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding Jiabo Ye Junfeng Tian Ming Yan Xiaoshan Yang Xuwu Wang Ji Zhang Liang He Xin Lin ObjD 6 61 0 29 Mar 2022
Local-Global Context Aware Transformer for Language-Guided Video Segmentation Chen Liang Wenguan Wang Tianfei Zhou Jiaxu Miao Yawei Luo Yi Yang VOS 24 74 0 18 Mar 2022
Differentiated Relevances Embedding for Group-based Referring Expression Comprehension Fuhai Chen Xuri Ge Xiaoshuai Sun Yue Gao Jianzhuang Liu Feiyue Huang Rongrong Ji 25 0 0 12 Mar 2022
Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding Yang Jiao Zequn Jie Jingjing Chen Lin Ma Yu-Gang Jiang OOD 10 7 0 10 Mar 2022
Phrase-Based Affordance Detection via Cyclic Bilateral Interaction Liangsheng Lu Wei Zhai Hongcheng Luo Yu Kang Yang Cao 19 19 0 24 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 212 0 18 Feb 2022
Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics Hangjie Yuan Mang Wang Dong Ni Liangpeng Xu 11 36 0 01 Feb 2022
Deconfounded Visual Grounding Jianqiang Huang Yu Qin Jiaxin Qi Qianru Sun Hanwang Zhang CML ObjD 11 31 0 31 Dec 2021
Towards Language-guided Visual Recognition via Dynamic Convolutions Gen Luo Yiyi Zhou Xiaoshuai Sun Yongjian Wu Yue Gao Rongrong Ji ObjD 25 19 0 17 Oct 2021