Multi3DRefer: Grounding Text Description to Multiple 3D Objects

11 September 2023

Papers citing "Multi3DRefer: Grounding Text Description to Multiple 3D Objects"

12 / 12 papers shown

Title
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding Feng Xiao Hongbin Xu Guocan Zhao Wenxiong Kang 34 0 0 07 May 2025
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 84 29 0 26 Sep 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-xiong Wang 67 15 0 05 Sep 2024
Talk to Parallel LiDARs: A Human-LiDAR Interaction Method Based on 3D Visual Grounding Yuhang Liu Boyi Sun Guixu Zheng Yishuo Wang Jing Wang Fei-Yue Wang 19 2 0 24 May 2024
MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding Chun-Peng Chang Shaoxiang Wang A. Pagani Didier Stricker 30 7 0 05 Mar 2024
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 45 4 0 15 Dec 2023
Uni3DL: Unified Model for 3D and Language Understanding Xiang Li Jian Ding Zhaoyang Chen Mohamed Elhoseiny 18 3 0 05 Dec 2023
CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory Nur Muhammad (Mahi) Shafiullah Chris Paxton Lerrel Pinto Soumith Chintala Arthur Szlam VLM LM&Ro CLIP 85 155 0 11 Oct 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 44 62 0 29 Sep 2022
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 158 428 0 04 Dec 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 59 128 0 01 Mar 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021