Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension

Computer Vision and Pattern Recognition (CVPR), 2020

1 March 2020

Peng Wang

Qi Wu

Papers citing "Cops-Ref: A new Dataset and Task on Compositional Referring Expression Comprehension"

49 / 49 papers shown

Making Dialogue Grounding Data Rich: A Three-Tier Data Synthesis Framework for Generalized Referring Expression Comprehension

210

02 Dec 2025

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

293

01 Dec 2025

Referring Expressions as a Lens into Spatial Language Grounding in Vision-Language Models

Akshar Tumu

Varad Shinde

Parisa Kordjamshidi

122

08 Nov 2025

CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning

275

03 Oct 2025

GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions

227

25 Sep 2025

Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding

287

01 Jul 2025

RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration

...

529

06 May 2025

KARL: Knowledge-Aware Reasoning and Reinforcement Learning for Knowledge-Intensive Visual Grounding

391

17 Mar 2025

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

464

17 Mar 2025

Referring to Any Person

977

11 Mar 2025

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM CollaborationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

537

27 Feb 2025

Acknowledging Focus Ambiguity in Visual Questions

379

04 Jan 2025

Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

1.1K

28 Dec 2024

FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression ComprehensionConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

478

23 Sep 2024

Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models

308

24 Jun 2024

Bootstrapping Referring Multi-Object Tracking

424

07 Jun 2024

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

Shanliang Yao

...

471

19 Mar 2024

GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection

505

22 Dec 2023

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in ClutterConference on Robot Learning (CoRL), 2023

303

09 Nov 2023

GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and reusing ModulEs

Chuang Gan

374

08 Nov 2023

Enhancing Multimodal Compositional Reasoning of Visual Language Models with Generative Negative MiningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

243

07 Nov 2023

TextPSG: Panoptic Scene Graph Generation from Textual DescriptionsIEEE International Conference on Computer Vision (ICCV), 2023

Chengyang Zhao

Songlin Yang

Zhenfang Chen

Mingyu Ding

Chuang Gan

473

10 Oct 2023

InstructDET: Diversifying Referring Object Detection with Generalized InstructionsInternational Conference on Learning Representations (ICLR), 2023

...

529

08 Oct 2023

Dense Object Grounding in 3D ScenesACM Multimedia (ACM MM), 2023

Wencan Huang

Daizong Liu

Wei Hu

287

05 Sep 2023

VL-Grasp: a 6-Dof Interactive Grasp Policy for Language-Oriented Objects in Cluttered Indoor ScenesIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

302

01 Aug 2023

Described Object Detection: Liberating Object Detection with Flexible ExpressionsNeural Information Processing Systems (NeurIPS), 2023

353

24 Jul 2023

Advancing Visual Grounding with Scene Knowledge: Benchmark and MethodComputer Vision and Pattern Recognition (CVPR), 2023

Xiang Wan

258

21 Jul 2023

ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models

Avinash Madasu

Vasudev Lal

CoGe

355

28 Jun 2023

Large Language Models as Commonsense Knowledge for Large-Scale Task PlanningNeural Information Processing Systems (NeurIPS), 2023

466

357

23 May 2023

Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction FollowingConference on Robot Learning (CoRL), 2023

Mingyu Ding

Yan Xu

Ping Luo

Chuang Gan

238

07 Apr 2023

3D Concept Learning and Reasoning from Multi-View ImagesComputer Vision and Pattern Recognition (CVPR), 2023

Chuang Gan

410

20 Mar 2023

PACO: Parts and Attributes of Common ObjectsComputer Vision and Pattern Recognition (CVPR), 2023

...

292

158

04 Jan 2023

CREPE: Can Vision-Language Foundation Models Reason Compositionally?Computer Vision and Pattern Recognition (CVPR), 2022

449

200

13 Dec 2022

Language Conditioned Spatial Relation Reasoning for 3D Object GroundingNeural Information Processing Systems (NeurIPS), 2022

339

150

17 Nov 2022

YORO -- Lightweight End to End Visual Grounding

281

15 Nov 2022

RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing DataIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2022

Yangfan Zhan

Zhitong Xiong

Yuan. Yuan

289

215

23 Oct 2022

Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022

179

21 Oct 2022

RefCrowd: Grounding the Target in Crowd with Referring ExpressionsACM Multimedia (ACM MM), 2022

Qingbo Wu

Fanman Meng

ObjD

318

16 Jun 2022

Referring Image MattingComputer Vision and Pattern Recognition (CVPR), 2022

Jizhizi Li

Jing Zhang

Dacheng Tao

ObjD VLM

260

10 Jun 2022

Fixing Malfunctional Objects With Learned Physical Simulation and Functional PredictionComputer Vision and Pattern Recognition (CVPR), 2022

Antonio Torralba

Chuang Gan

251

05 May 2022

FindIt: Generalized Localization with Natural Language QueriesEuropean Conference on Computer Vision (ECCV), 2022

261

31 Mar 2022

Differentiated Relevances Embedding for Group-based Referring Expression Comprehension

Yue Gao

217

12 Mar 2022

COVR: A test-bed for Visually Grounded Compositional Generalization with real imagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

198

22 Sep 2021

YouRefIt: Embodied Reference Understanding with Language and GestureIEEE International Conference on Computer Vision (ICCV), 2021

336

08 Sep 2021

A Better Loss for Visual-Textual GroundingACM Symposium on Applied Computing (SAC), 2021

318

11 Aug 2021

Exploring Data Pipelines through the Process Lens: a Reference Model forComputer Vision

Agathe Balayn

B. Kulynych

S. Guerses

252

05 Jul 2021

Understanding Synonymous Referring Expressions via Contrastive FeaturesInternational Journal of Computer Vision (IJCV), 2021

Yi-Wen Chen

Yi-Hsuan Tsai

Ming-Hsuan Yang

ObjD

241

20 Apr 2021

OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene GroundingNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Hung-Ting Su

249

13 Mar 2021

Referring Expression Comprehension: A Survey of Methods and DatasetsIEEE transactions on multimedia (TMM), 2020

Yanyuan Qiao

Chaorui Deng

Qi Wu

ObjD

478

128

19 Jul 2020