Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding

9 May 2018

Zhou Zhao

Papers citing "Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding"

50 / 71 papers shown

Improving Generalized Visual Grounding with Instance-aware Joint LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

255

17 Sep 2025

Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding

169

08 Sep 2025

PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination

229

05 Sep 2025

Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

963

28 Dec 2024

CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-TrainingACM Multimedia (ACM MM), 2022

377

16 Oct 2024

ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual GroundingACM Multimedia (MM), 2024

Minghang Zheng

Jiahua Zhang

Qingchao Chen

Yuxin Peng

Yang Liu

ObjD

297

29 Aug 2024

R2G: Reasoning to Ground in 3D ScenesPattern Recognition (Pattern Recogn.), 2024

Yixuan Li

Zan Wang

Wei Liang

309

24 Aug 2024

SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding

Weitai Kang

Gaowen Liu

Mubarak Shah

Yan Yan

ObjD

408

03 Jul 2024

ScanFormer: Referring Expression Comprehension by Iteratively Scanning

276

26 Jun 2024

Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring

294

14 Mar 2024

LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition

394

15 Feb 2024

Bridging Modality Gap for Visual Grounding with Effecitve Cross-modal DistillationChinese Conference on Pattern Recognition and Computer Vision (CPRCV), 2023

279

29 Dec 2023

Context Disentangling and Prototype Inheriting for Robust Visual Grounding

Wei Tang

271

19 Dec 2023

Mono3DVG: 3D Visual Grounding in Monocular ImagesAAAI Conference on Artificial Intelligence (AAAI), 2023

Yangfan Zhan

Yuan. Yuan

Zhitong Xiong

MDE

266

13 Dec 2023

Griffon: Spelling out All Object Locations at Any Granularity with Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

241

24 Nov 2023

Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

283

05 Nov 2023

Language-Guided Diffusion Model for Visual Grounding

Sijia Chen

Baochun Li

638

18 Aug 2023

Enhancing image captioning with depth information using a Transformer-based framework

215

24 Jul 2023

Incomplete Multi-view Clustering via Prototype-based ImputationInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

222

26 Jan 2023

HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial ImagesIsprs Journal of Photogrammetry and Remote Sensing (ISPRS J. Photogramm. Remote Sens.), 2023

Kun Li

G. Vosselman

M. Yang

219

23 Jan 2023

DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and GroundingAAAI Conference on Artificial Intelligence (AAAI), 2022

Hang Su

Jun Zhu

Lei Zhang

ObjD

283

28 Nov 2022

Who are you referring to? Coreference resolution in image narrationsIEEE International Conference on Computer Vision (ICCV), 2022

272

26 Nov 2022

YORO -- Lightweight End to End Visual Grounding

172

15 Nov 2022

Grounding Scene Graphs on Natural Images via Visio-Lingual Message PassingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Aditay Tripathi

Anand Mishra

Anirban Chakraborty

164

03 Nov 2022

RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing DataIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2022

Yangfan Zhan

Zhitong Xiong

Yuan. Yuan

241

179

23 Oct 2022

Vision+X: A Survey on Multimodal Learning in the Light of DataIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Ye Zhu

Yuehua Wu

Andrii Zadaianchuk

Yan Yan

354

05 Oct 2022

Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual GroundingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

226

28 Sep 2022

Cross-Modal Alignment Learning of Vision-Language Conceptual Systems

Taehyeong Kim

H. Song

Byoung-Tak Zhang

196

31 Jul 2022

TransVG++: End-to-End Visual Grounding with Language Conditioned Vision TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Wanli Ouyang

240

14 Jun 2022

PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Yuan Yao

Qi-An Chen

Ao Zhang

Wei Ji

Zhiyuan Liu

Tat-Seng Chua

Maosong Sun

VLM MLLM

252

23 May 2022

Improving Visual Grounding with Visual-Linguistic Verification and Iterative ReasoningComputer Vision and Pattern Recognition (CVPR), 2022

Li Yang

Yan Xu

Chunfen Yuan

Wei Liu

Bing Li

Weiming Hu

ObjD

289

155

30 Apr 2022

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression ComprehensionIEEE Transactions on Image Processing (IEEE TIP), 2022

Xi Li

333

21 Apr 2022

A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression ComprehensionIEEE transactions on multimedia (IEEE TMM), 2022

243

17 Apr 2022

Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language TasksIEEE Transactions on Image Processing (IEEE TIP), 2022

Liujuan Cao

Yongjian Wu

Feiyue Huang

Rongrong Ji

ViT

150

16 Apr 2022

Pseudo-Q: Generating Pseudo Language Queries for Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

Gao Huang

312

16 Mar 2022

Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual GroundingACM Multimedia (ACM MM), 2022

221

10 Mar 2022

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

477

147

16 Dec 2021

Towards Language-guided Visual Recognition via Dynamic Convolutions

Yongjian Wu

234

17 Oct 2021

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

Ji Zhang

Meng Wang

Jun-chen Yu

VLM

166

16 Aug 2021

Sharing Cognition: Human Gesture and Natural Language Grounding Based Planning and Navigation for Indoor Robots

103

14 Aug 2021

A Better Loss for Visual-Textual GroundingACM Symposium on Applied Computing (SAC), 2021

175

11 Aug 2021

Referring Transformer: A One-step Approach to Multi-task Visual GroundingNeural Information Processing Systems (NeurIPS), 2021

Muchen Li

Leonid Sigal

ObjD

323

237

06 Jun 2021

VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language Matching

Hanwang Zhang

273

12 May 2021

MDETR -- Modulated Detection for End-to-End Multi-Modal UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

612

1,051

26 Apr 2021

TransVG: End-to-End Visual Grounding with TransformersIEEE International Conference on Computer Vision (ICCV), 2021

612

442

17 Apr 2021

Look Before You Leap: Learning Landmark Features for One-Stage Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2021

322

123

09 Apr 2021

Relation-aware Instance Refinement for Weakly Supervised Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2021

255

24 Mar 2021

SIRI: Spatial Relation Induced Network For Spatial Description ResolutionNeural Information Processing Systems (NeurIPS), 2020

102

27 Oct 2020

MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding

292

12 Oct 2020

Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression GroundingAAAI Conference on Artificial Intelligence (AAAI), 2020

311

111

03 Sep 2020