v1v2v3v4v5 (latest)

Data-Efficient 3D Visual Grounding via Order-Aware Referring

25 March 2024

Tung-Yu Wu

Sheng-Yu Huang

Yu-Chiang Frank Wang

ArXiv (abs)PDF HTML Github

Papers citing "Data-Efficient 3D Visual Grounding via Order-Aware Referring"

48 / 48 papers shown

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

...

848

29 Oct 2025

Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models

414

18 Jul 2024

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future DirectionsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Wei Hu

425

09 Jun 2024

CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual GroundingInternational Conference on Learning Representations (ICLR), 2023

452

10 Oct 2023

Multi3DRefer: Grounding Text Description to Multiple 3D ObjectsIEEE International Conference on Computer Vision (ICCV), 2023

Yiming Zhang

ZeMing Gong

Angel X. Chang

549

153

11 Sep 2023

3DRP-Net: 3D Relative Position-aware Network for 3D Visual GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Xize Cheng

Zhou Zhao

228

25 Jul 2023

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

284

129

17 Jul 2023

OpenMask3D: Open-Vocabulary 3D Instance SegmentationNeural Information Processing Systems (NeurIPS), 2023

Marc Pollefeys

309

292

23 Jun 2023

Fine-Grained Visual PromptingNeural Information Processing Systems (NeurIPS), 2023

Lingfeng Yang

Yueze Wang

Xiang Li

Xinlong Wang

Jian Yang

ObjD VLM

291

116

07 Jun 2023

What does CLIP know about a red circle? Visual prompt engineering for VLMsIEEE International Conference on Computer Vision (ICCV), 2023

Aleksandar Shtedritski

Christian Rupprecht

Andrea Vedaldi

VLM MLLM

502

255

13 Apr 2023

Segment AnythingIEEE International Conference on Computer Vision (ICCV), 2023

...

Piotr Dollár

1.1K

12,789

05 Apr 2023

NS3D: Neuro-Symbolic Grounding of 3D Objects and RelationsComputer Vision and Pattern Recognition (CVPR), 2023

Joy Hsu

Jiayuan Mao

Jiajun Wu

PINN

331

23 Mar 2023

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models

...

Jie Zhou

Siming Chen

Tao Gui

Xuanjing Huang

ELM

349

469

18 Mar 2023

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object DetectionEuropean Conference on Computer Vision (ECCV), 2023

...

Jianwei Yang

Hang Su

Jun Zhu

Lei Zhang

ObjD

913

3,820

09 Mar 2023

Directed Diffusion: Direct Control of Object Placement through Attention GuidanceAAAI Conference on Artificial Intelligence (AAAI), 2023

513

25 Feb 2023

ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D ScenesIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Hsin-Ying Lee

317

12 Dec 2022

Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual GroundingNeural Information Processing Systems (NeurIPS), 2022

246

25 Nov 2022

Language Conditioned Spatial Relation Reasoning for 3D Object GroundingNeural Information Processing Systems (NeurIPS), 2022

339

145

17 Nov 2022

EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

Yanmin Wu

Xinhua Cheng

Renrui Zhang

Zesen Cheng

Jian Zhang

414

119

29 Sep 2022

3D Instances as 1D KernelsEuropean Conference on Computer Vision (ECCV), 2022

Zhiguo Cao

255

15 Jul 2022

Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases

Zhuo Li

287

05 Jul 2022

GLIPv2: Unifying Localization and Vision-Language Understanding

Lu Yuan

368

371

12 Jun 2022

Large Language Models are Zero-Shot ReasonersNeural Information Processing Systems (NeurIPS), 2022

1.6K

6,749

24 May 2022

3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive SelectionComputer Vision and Pattern Recognition (CVPR), 2022

366

135

13 Apr 2022

ReCLIP: A Strong Zero-Shot Baseline for Referring Expression ComprehensionAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

335

169

12 Apr 2022

Multi-View Transformer for 3D Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

461

191

05 Apr 2022

DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object DetectionInternational Conference on Learning Representations (ICLR), 2022

Hao Zhang

Feng Li

Shilong Liu

Lei Zhang

Hang Su

Jun Zhu

L. Ni

H. Shum

ViT

1.0K

2,529

07 Mar 2022

Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2022

2.7K

17,183

28 Jan 2022

High-Resolution Image Synthesis with Latent Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2021

4.7K

23,580

20 Dec 2021

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

602

159

16 Dec 2021

Grounded Language-Image Pre-training

Jianwei Yang

...

Lu Yuan

Lei Zhang

582

1,561

07 Dec 2021

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

Yuan Yao

Ao Zhang

Zhengyan Zhang

Zhiyuan Liu

Tat-Seng Chua

Maosong Sun

MLLM VPVLM VLM

707

251

24 Sep 2021

TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual GroundingACM Multimedia (ACM MM), 2021

416

125

05 Aug 2021

Evaluating Large Language Models Trained on Code

...

2.7K

8,889

07 Jul 2021

SAT: 2D Semantics Assisted Training for 3D Visual GroundingIEEE International Conference on Computer Vision (ICCV), 2021

478

165

24 May 2021

MDETR -- Modulated Detection for End-to-End Multi-Modal UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

687

1,101

26 Apr 2021

InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual ReferringIEEE International Conference on Computer Vision (ICCV), 2021

372

185

01 Mar 2021

End-to-End Object Detection with TransformersEuropean Conference on Computer Vision (ECCV), 2020

3.1K

17,593

26 May 2020

PointGroup: Dual-Set Point Grouping for 3D Instance SegmentationComputer Vision and Pattern Recognition (CVPR), 2020

412

555

03 Apr 2020

ScanRefer: 3D Object Localization in RGB-D Scans using Natural LanguageEuropean Conference on Computer Vision (ECCV), 2019

Dave Zhenyu Chen

Angel X. Chang

Matthias Nießner

3DPC

542

549

18 Dec 2019

PyTorch: An Imperative Style, High-Performance Deep Learning LibraryNeural Information Processing Systems (NeurIPS), 2019

...

1.1K

50,986

03 Dec 2019

RoBERTa: A Robustly Optimized BERT Pretraining Approach

Luke Zettlemoyer

6.0K

29,143

26 Jul 2019

Deep Hough Voting for 3D Object Detection in Point Clouds

732

1,460

21 Apr 2019

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

3.1K

112,756

11 Oct 2018

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Qi Wu

1.1K

1,683

20 Nov 2017

PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric SpaceNeural Information Processing Systems (NeurIPS), 2017

868

13,667

07 Jun 2017

ScanNet: Richly-annotated 3D Reconstructions of Indoor ScenesComputer Vision and Pattern Recognition (CVPR), 2017

Matthias Nießner

1.5K

5,260

14 Feb 2017

Adam: A Method for Stochastic OptimizationInternational Conference on Learning Representations (ICLR), 2014

Diederik P. Kingma

Jimmy Ba

ODL

5.0K

164,701

22 Dec 2014