Multi-View Transformer for 3D Visual Grounding

5 April 2022

Papers citing "Multi-View Transformer for 3D Visual Grounding"

33 / 83 papers shown

Title
EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI Tai Wang Xiaohan Mao Chenming Zhu Runsen Xu Ruiyuan Lyu ... Tianfan Xue Xihui Liu Cewu Lu Dahua Lin Jiangmiao Pang LM&Ro 16 58 0 26 Dec 2023
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 47 4 0 15 Dec 2023
Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers Haifeng Huang Zehan Wang Rongjie Huang Luping Liu Xize Cheng Yang Zhao Tao Jin Zhou Zhao 50 40 0 13 Dec 2023
Mono3DVG: 3D Visual Grounding in Monocular Images Yangfan Zhan Yuan. Yuan Zhitong Xiong MDE 23 9 0 13 Dec 2023
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding Zhihao Yuan Jinke Ren Chun-Mei Feng Hengshuang Zhao Shuguang Cui Zhen Li 16 26 0 26 Nov 2023
Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding Chancharik Mitra Abrar Anwar Rodolfo Corona Dan Klein Trevor Darrell Jesse Thomason 8 1 0 12 Nov 2023
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter Georgios Tziafas Yucheng Xu Arushi Goel M. Kasaei Zhibin Li H. Kasaei 17 22 0 09 Nov 2023
CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data Taiki Miyanishi Fumiya Kitamori Shuhei Kurita Jungdae Lee M. Kawanabe Nakamasa Inoue AI4TS 3DPC 11 4 0 28 Oct 2023
What's Left? Concept Grounding with Logic-Enhanced Foundation Models Joy Hsu Jiayuan Mao Joshua B. Tenenbaum Jiajun Wu VLM ReLM LRM 12 21 0 24 Oct 2023
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation Yinjie Lei Zixuan Wang Feng Chen Guoqing Wang Peng Wang Yang Yang 27 8 0 24 Oct 2023
CoT3DRef: Chain-of-Thoughts Data-Efficient 3D Visual Grounding Eslam Mohamed Bakr Mohamed Ayman Mahmoud Ahmed Habib Slim Mohamed Elhoseiny LRM 21 12 0 10 Oct 2023
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent Jianing Yang Xuweiyi Chen Shengyi Qian Nikhil Madaan Madhavan Iyengar David Fouhey Joyce Chai LM&Ro LLMAG 22 84 0 21 Sep 2023
Multi3DRefer: Grounding Text Description to Multiple 3D Objects Yiming Zhang ZeMing Gong Angel X. Chang 42 63 0 11 Sep 2023
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding Ozan Unal Christos Sakaridis Suman Saha Luc Van Gool 23 12 0 08 Sep 2023
Dense Object Grounding in 3D Scenes Wencan Huang Daizong Liu Wei Hu 13 17 0 05 Sep 2023
3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment Ziyu Zhu Xiaojian Ma Yixin Chen Zhidong Deng Siyuan Huang Qing Li LM&Ro 21 100 0 08 Aug 2023
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding Zehan Wang Haifeng Huang Yang Zhao Lin Li Xize Cheng Yichen Zhu Aoxiong Yin Zhou Zhao 3DPC 25 19 0 25 Jul 2023
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding Zehan Wang Haifeng Huang Yang Zhao Lin Li Xize Cheng Yichen Zhu Aoxiong Yin Zhou Zhao 16 9 0 18 Jul 2023
RVT: Robotic View Transformer for 3D Object Manipulation Ankit Goyal Jie Xu Yijie Guo Valts Blukis Yu-Wei Chao D. Fox LM&Ro 26 115 0 26 Jun 2023
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans Taiki Miyanishi Daich Azuma Shuhei Kurita M. Kawanabe 25 2 0 23 May 2023
Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding Zhang Tao Su He D. Tao Bin Chen Zhi Wang Shutao Xia VLM 21 21 0 18 May 2023
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language Zhe-nan Lin Xidong Peng Peishan Cong Ge Zheng Yujin Sun Yuenan Hou Xinge Zhu Sibei Yang Yuexin Ma VGen 82 4 0 12 Apr 2023
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance Zoey Guo Yiwen Tang Renrui Zhang Dong Wang Zhigang Wang Bin Zhao Xuelong Li 17 53 0 29 Mar 2023
NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations Joy Hsu Jiayuan Mao Jiajun Wu PINN 40 46 0 23 Mar 2023
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding Ziyang Lu Yunqiang Pei Guoqing Wang Yang Yang Zheng Wang Heng Tao Shen 46 6 0 23 Mar 2023
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes Ahmed Abdelreheem Kyle Olszewski Hsin-Ying Lee Peter Wonka Panos Achlioptas 3DPC 20 28 0 12 Dec 2022
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev 40 73 0 17 Nov 2022
A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation Shijia Huang Feng Li Hao Zhang Siyi Liu Lei Zhang Liwei Wang 14 5 0 15 Nov 2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding Jiaming Chen Weihua Luo Ran Song Xiaolin K. Wei Lin Ma Wei Emma Zhang 3DV 38 6 0 22 Oct 2022
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach Georgios Tziafas H. Kasaei LM&Ro 12 3 0 03 Oct 2022
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases Zhihao Yuan Xu Yan Zhuo Li Xuhao Li Yao Guo Shuguang Cui Zhen Li 23 16 0 05 Jul 2022
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 58 325 0 11 Nov 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 59 128 0 01 Mar 2021