A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances,
and Future Directions

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions

9 June 2024

Wei Hu

Papers citing "A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions"

19 / 19 papers shown

Title
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding Feng Xiao Hongbin Xu Guocan Zhao Wenxiong Kang 37 0 0 07 May 2025
First-place Solution for Streetscape Shop Sign Recognition Competition Bin Wang Li Jing 55 0 0 06 Jan 2025
Multi-branch Collaborative Learning Network for 3D Visual Grounding Zhipeng Qian Yiwei Ma Zhekai Lin Jiayi Ji Xiawu Zheng Xiaoshuai Sun Rongrong Ji 3DV 38 4 0 07 Jul 2024
Unifying 3D Vision-Language Understanding via Promptable Queries Ziyu Zhu Zhuofan Zhang Xiaojian Ma Xuesong Niu Yixin Chen Baoxiong Jia Zhidong Deng Siyuan Huang Qing Li 40 21 0 19 May 2024
Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning Rao Fu Jingyu Liu Xilun Chen Yixin Nie Wenhan Xiong LM&Ro LRM 39 47 0 18 Mar 2024
3D-VLA: A 3D Vision-Language-Action Generative World Model Haoyu Zhen Xiaowen Qiu Peihao Chen Jincheng Yang Xin Yan Yilun Du Yining Hong Chuang Gan LM&Ro VGen PINN 34 81 0 14 Mar 2024
GPT4Point: A Unified Framework for Point-Language Understanding and Generation Zhangyang Qi Ye Fang Zeyi Sun Xiaoyang Wu Tong Wu Jiaqi Wang Dahua Lin Hengshuang Zhao MLLM 71 35 0 05 Dec 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 203 883 0 27 Apr 2023
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding Ziyang Lu Yunqiang Pei Guoqing Wang Yang Yang Zheng Wang Heng Tao Shen 46 6 0 23 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding Jiaming Chen Weihua Luo Ran Song Xiaolin K. Wei Lin Ma Wei Emma Zhang 3DV 38 6 0 22 Oct 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 44 62 0 29 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 78 43 0 29 Aug 2021
Computer-Aided Design as Language Yaroslav Ganin Sergey Bartunov Yujia Li E. Keller Stefano Saliceti 3DV 91 87 0 06 May 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 59 128 0 01 Mar 2021
OccuSeg: Occupancy-aware 3D Instance Segmentation Lei Han Tian Zheng Lan Xu Lu Fang 3DPC 147 254 0 14 Mar 2020
ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes C. Qi Xinlei Chen Or Litany Leonidas J. Guibas 3DPC 178 239 0 29 Jan 2020