v1v2 (latest)

Referring Expression Comprehension: A Survey of Methods and Datasets

IEEE transactions on multimedia (TMM), 2020

19 July 2020

Qi Wu

Papers citing "Referring Expression Comprehension: A Survey of Methods and Datasets"

50 / 58 papers shown

Zero-Shot Referring Expression Comprehension via Vison-Language True/False Verification

Jeffrey Liu

Rongbin Hu

ObjD

231

12 Sep 2025

KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge

183

12 Aug 2025

Multimodal Human-Intent Modeling for Contextual Robot-to-Human Handovers of Arbitrary Objects

184

05 Aug 2025

Multimodal Referring Segmentation: A Survey

512

01 Aug 2025

CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding

304

29 Jul 2025

Improving Contrastive Learning for Referring Expression Counting

190

28 May 2025

TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs

...

336

27 May 2025

Human-like compositional learning of visually-grounded concepts using synthetic environments

480

09 Apr 2025

KARL: Knowledge-Aware Reasoning and Reinforcement Learning for Knowledge-Intensive Visual Grounding

382

17 Mar 2025

GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing

280

16 Mar 2025

Referring to Any Person

975

11 Mar 2025

SwimVG: Step-wise Multimodal Fusion and Adaption for Visual Grounding

485

24 Feb 2025

Acknowledging Focus Ambiguity in Visual Questions

375

04 Jan 2025

Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

1.1K

28 Dec 2024

AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding

308

13 Nov 2024

Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation

Qiong Cao

256

17 Oct 2024

OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring ModelingNeural Information Processing Systems (NeurIPS), 2024

Fang Peng

496

10 Oct 2024

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression ComprehensionInternational Conference on Learning Representations (ICLR), 2024

388

18 Sep 2024

Make Graph-based Referring Expression Comprehension Great Again through Expression-guided Dynamic Gating and RegressionIEEE transactions on multimedia (IEEE TMM), 2024

Yen-Yu Lin

300

05 Sep 2024

NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar

Eng Gee Lim

449

30 Aug 2024

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Yifan Xu

...

Zhengxiao Du

Chan Hee Song

Yu Su

Yuxiao Dong

Jie Tang

VLM LLMAG

287

12 Aug 2024

Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

308

24 Jun 2024

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future DirectionsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Wei Hu

422

09 Jun 2024

MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains

393

17 May 2024

HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding

Linhui Xiao

374

20 Apr 2024

Referring Flexible Image Restoration

Tianlang Xue

246

16 Apr 2024

LocCa: Visual Pretraining with Location-aware Captioners

Ibrahim Alabdulmohsin

416

28 Mar 2024

J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution

Sadao Kurohashi

259

28 Mar 2024

Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation

350

23 Mar 2024

MyVLM: Personalizing VLMs for User-Specific Queries

Yuval Alaluf

Elad Richardson

Sergey Tulyakov

Kfir Aberman

Daniel Cohen-Or

MLLM VLM

442

21 Mar 2024

VL-Mamba: Exploring State Space Models for Multimodal Learning

Qi Wu

283

117

20 Mar 2024

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

Shanliang Yao

...

463

19 Mar 2024

SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction

305

19 Feb 2024

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Dahua Lin

494

183

06 Dec 2023

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in ClutterConference on Robot Learning (CoRL), 2023

302

09 Nov 2023

Toloka Visual Question Answering Benchmark

Mert Pilanci

Nikita Pavlichenko

Sergey Koshelev

Daniil Likhobaba

Alisa Smirnova

279

28 Sep 2023

Dense Object Grounding in 3D ScenesACM Multimedia (ACM MM), 2023

Wencan Huang

Daizong Liu

Wei Hu

285

05 Sep 2023

SCoRD: Subject-Conditional Relation Detection with Text-Augmented DataIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

291

24 Aug 2023

VL-Grasp: a 6-Dof Interactive Grasp Policy for Language-Oriented Objects in Cluttered Indoor ScenesIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

297

01 Aug 2023

Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation InstructionsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

296

17 Jul 2023

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual GroundingIEEE transactions on multimedia (IEEE TMM), 2023

Linhui Xiao

Xiaoshan Yang

Fang Peng

Ming Yan

Yaowei Wang

Changsheng Xu

ObjD VLM

549

15 May 2023

Natural Language Robot Programming: NLP integrated with autonomous robotic grasping

176

06 Apr 2023

ScanERU: Interactive 3D Visual Grounding based on Embodied Reference UnderstandingAAAI Conference on Artificial Intelligence (AAAI), 2023

Zheng Wang

209

23 Mar 2023

Multimodality Representation Learning: A Survey on Evolution, Pretraining and Its Applications

Muhammad Arslan Manzoor

375

01 Feb 2023

Find Someone Who: Visual Commonsense Understanding in Human-Centric GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

178

14 Dec 2022

Extending Phrase Grounding with Pronouns in Visual DialoguesConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Min Zhang

215

23 Oct 2022

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering

351

02 May 2022

A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of One-Stage Referring Expression ComprehensionIEEE transactions on multimedia (IEEE TMM), 2022

279

17 Apr 2022

FindIt: Generalized Localization with Natural Language QueriesEuropean Conference on Computer Vision (ECCV), 2022

248

31 Mar 2022

Interactive Robotic Grasping with Attribute-Guided DisambiguationIEEE International Conference on Robotics and Automation (ICRA), 2022

Yang Yang

Xibai Lou

Changhyun Choi

224

15 Mar 2022