ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance

29 March 2023

Xuelong Li

Papers citing "ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance"

50 / 56 papers shown

Title
DenseGrounding: Improving Dense Language-Vision Semantics for Ego-Centric 3D Visual Grounding Henry Zheng Hao Shi Qihang Peng Yong Xien Chng Rui Huang Yepeng Weng Zhongchao Shi Gao Huang 56 1 0 08 May 2025
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding Feng Xiao Hongbin Xu Guocan Zhao Wenxiong Kang 37 0 0 07 May 2025
3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment X. Li J. H. Liu Nuowei Han Liang Heng Y. Guo Hao Dong Yang Liu 46 0 0 03 May 2025
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness Haochen Wang Yucheng Zhao Tiancai Wang Haoqiang Fan X. Zhang Zhaoxiang Zhang 59 0 0 02 Apr 2025
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning Zhenyang Liu Yikai Wang Sixiao Zheng Tongying Pan Longfei Liang Yanwei Fu Xiangyang Xue LRM 49 0 0 30 Mar 2025
Empowering Large Language Models with 3D Situation Awareness Zhihao Yuan Yibo Peng Jinke Ren Yinghong Liao Yatong Han Chun-Mei Feng Hengshuang Zhao G. Li Shuguang Cui Zhen Li 49 0 0 29 Mar 2025
Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning Xueying Jiang Wenhao Li Xiaoqin Zhang Ling Shao Shijian Lu LRM 40 0 0 17 Mar 2025
ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding Qihang Peng Henry Zheng Gao Huang 3DPC 77 0 0 26 Feb 2025
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring Xinyi Wang Na Zhao Zhiyuan Han D. Guo Xun Yang 36 1 0 17 Jan 2025
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models Zhangyang Qi Zhixiong Zhang Ye Fang Jiaqi Wang Hengshuang Zhao 83 6 0 02 Jan 2025
LidaRefer: Outdoor 3D Visual Grounding for Autonomous Driving with Transformers Yeong-Seung Baek Heung-Seon Oh 26 0 0 07 Nov 2024
Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention Haomeng Zhang Chiao-An Yang Raymond A. Yeh 29 1 0 29 Oct 2024
Grounding 3D Scene Affordance From Egocentric Interactions Cuiyu Liu Wei Zhai Yuhang Yang Hongchen Luo Sen Liang Yang Cao Zheng-Jun Zha 26 1 0 29 Sep 2024
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models Shengsheng Qian Zuyi Zhou Dizhan Xue Bing Wang Changsheng Xu LRM 34 1 0 19 Sep 2024
3D Vision and Language Pretraining with Large-Scale Synthetic Data Dejie Yang Zhu Xu Wentao Mo Qingchao Chen Siyuan Huang Yang Liu 21 5 0 08 Jul 2024
Multi-Task Domain Adaptation for Language Grounding with 3D Objects Penglei Sun Yaoxian Song Xinglin Pan Peijie Dong Xiaofei Yang Qiang-qiang Wang Zhixu Li Tiefeng Li Xiaowen Chu 52 1 0 03 Jul 2024
LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control Delin Qu Qizhi Chen Pingrui Zhang Xianqiang Gao Bin Zhao Bin Zhao Dong Wang Xuelong Li AI4CE 34 7 0 23 Jun 2024
Dual Attribute-Spatial Relation Alignment for 3D Visual Grounding Yue Xu Kaizhi Yang Jiebo Luo Xuejin Chen 3DPC 31 1 0 13 Jun 2024
A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions Daizong Liu Yang Liu Wencan Huang Wei Hu LM&Ro 29 9 0 09 Jun 2024
Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection Jiaming Li Jiacheng Zhang Jichang Li Ge Li Si Liu Liang Lin Guanbin Li ObjD VLM 40 12 0 01 Jun 2024
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension Runwei Guan Ruixiao Zhang Ningwei Ouyang Jianan Liu Ka Lok Man ... Ming Xu Jeremy S. Smith Eng Gee Lim Yutao Yue Hui Xiong 46 8 0 21 May 2024
Unifying 3D Vision-Language Understanding via Promptable Queries Ziyu Zhu Zhuofan Zhang Xiaojian Ma Xuesong Niu Yixin Chen Baoxiong Jia Zhidong Deng Siyuan Huang Qing Li 40 21 0 19 May 2024
Generating Human Motion in 3D Scenes from Text Descriptions Zhi Cen Huaijin Pi Sida Peng Zehong Shen Minghui Yang Shuai Zhu Hujun Bao Xiaowei Zhou 36 19 0 13 May 2024
"Where am I?" Scene Retrieval with Language Jiaqi Chen Dániel Baráth Iro Armeni Marc Pollefeys Hermann Blum LM&Ro 48 5 0 22 Apr 2024
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization Yongdong Luo Haojia Lin Xiawu Zheng Yigeng Jiang Fei Chao Jie Hu Guannan Jiang Songan Zhang Rongrong Ji 18 0 0 17 Apr 2024
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding Yiwen Tang Ray Zhang Jiaming Liu Zoey Guo Dong Wang ... Bin Zhao Shanghang Zhang Peng Gao Hongsheng Li Xuelong Li 30 10 0 11 Apr 2024
PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model Amrin Kareem Jean Lahoud Hisham Cholakkal LRM 39 3 0 04 Apr 2024
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning Hang Zhang Wenxiao Zhang Haoxuan Qu Jun Liu 23 4 0 15 Mar 2024
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention Feng Xiao Hongbin Xu Qiuxia Wu Wenxiong Kang 22 2 0 13 Mar 2024
MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding Chun-Peng Chang Shaoxiang Wang A. Pagani Didier Stricker 30 7 0 05 Mar 2024
Enhancing Zero-shot Counting via Language-guided Exemplar Learning Mingjie Wang Jun Zhou Yong Dai Eric Buys Minglun Gong 25 0 0 08 Feb 2024
LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding Senqiao Yang Jiaming Liu Ray Zhang Mingjie Pan Zoey Guo Xiaoqi Li Zehui Chen Peng Gao Yandong Guo Shanghang Zhang 3DV 6 58 0 21 Dec 2023
From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape Timothy R. McIntosh Teo Susnjak Tong Liu Paul Watters Malka N. Halgamuge 79 46 0 18 Dec 2023
MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition Dan Song Xinwei Fu Weizhi Nie Wenhui Li Lanjun Wang You Yang Anan Liu VLM 14 6 0 30 Nov 2023
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding Zhihao Yuan Jinke Ren Chun-Mei Feng Hengshuang Zhao Shuguang Cui Zhen Li 16 26 0 26 Nov 2023
Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models Yiwen Tang Ivan Tang Ray Gu Dong Wang Eric Zhang Bin Zhao Xuelong Li 3DPC 24 16 0 04 Oct 2023
LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition Haoxuan Qu Xiaofei Hui Yujun Cai Jun Liu 31 10 0 22 Sep 2023
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding Ozan Unal Christos Sakaridis Suman Saha Luc Van Gool 23 12 0 08 Sep 2023
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following Ziyu Guo Renrui Zhang Xiangyang Zhu Yiwen Tang Xianzheng Ma ... Ke Chen Peng Gao Xianzhi Li Hongsheng Li Pheng-Ann Heng MLLM 12 123 0 01 Sep 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 13 116 0 25 Jul 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 11 29 0 25 May 2023
Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement Xiang-yu Zhu Renrui Zhang Bowei He A-Long Zhou Dong Wang Bingyan Zhao Peng Gao VLM 25 76 0 03 Apr 2023
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection Anthony Chen Kevin Zhang Renrui Zhang Zihan Wang Yuheng Lu Yandong Guo Shanghang Zhang 3DPC 60 59 0 14 Mar 2023
Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis Renrui Zhang Liuhui Wang Ziyu Guo Jianbo Shi 3DPC 32 10 0 01 Mar 2023
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training Ziyu Guo Renrui Zhang Longtian Qiu Xianzhi Li Pheng-Ann Heng 3DPC 18 52 0 27 Feb 2023
PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning Xiangyang Zhu Renrui Zhang Bowei He Ziyu Guo Ziyao Zeng Zipeng Qin Shanghang Zhang Peng Gao VLM 20 133 0 21 Nov 2022
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention Ziyu Guo Renrui Zhang Longtian Qiu Xianzheng Ma Xupeng Miao Xuming He Bin Cui VLM AAML 55 108 0 28 Sep 2022
Collaboration of Pre-trained Models Makes Better Few-shot Learner Renrui Zhang Bohao Li Wei Zhang Hao Dong Hongsheng Li Peng Gao Yu Qiao VLM 46 7 0 25 Sep 2022
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training Renrui Zhang Ziyu Guo Rongyao Fang Bingyan Zhao Dong Wang Yu Qiao Hongsheng Li Peng Gao 3DPC 167 241 0 28 May 2022
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 161 428 0 04 Dec 2021