InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring

1 March 2021

Papers citing "InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring"

39 / 89 papers shown

Title
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding Zehan Wang Haifeng Huang Yang Zhao Lin Li Xize Cheng Yichen Zhu Aoxiong Yin Zhou Zhao 14 9 0 18 Jul 2023
Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving Wenhao Cheng Junbo Yin Wei Li Ruigang Yang Jianbing Shen 3DPC 9 14 0 25 May 2023
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans Taiki Miyanishi Daich Azuma Shuhei Kurita M. Kawanabe 20 2 0 23 May 2023
Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding Zhang Tao Su He D. Tao Bin Chen Zhi Wang Shutao Xia VLM 16 21 0 18 May 2023
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language Zhe-nan Lin Xidong Peng Peishan Cong Ge Zheng Yujin Sun Yuenan Hou Xinge Zhu Sibei Yang Yuexin Ma VGen 82 4 0 12 Apr 2023
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance Zoey Guo Yiwen Tang Renrui Zhang Dong Wang Zhigang Wang Bin Zhao Xuelong Li 12 53 0 29 Mar 2023
NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations Joy Hsu Jiayuan Mao Jiajun Wu PINN 35 46 0 23 Mar 2023
ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding Ziyang Lu Yunqiang Pei Guoqing Wang Yang Yang Zheng Wang Heng Tao Shen 40 6 0 23 Mar 2023
MXM-CLR: A Unified Framework for Contrastive Learning of Multifold Cross-Modal Representations Ye Wang Bo‐Shu Jiang C. Zou Rui Ma 14 5 0 20 Mar 2023
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training Ziyu Guo Renrui Zhang Longtian Qiu Xianzhi Li Pheng-Ann Heng 3DPC 10 52 0 27 Feb 2023
Text to Point Cloud Localization with Relation-Enhanced Transformer Guangzhi Wang Hehe Fan Mohan S. Kankanhalli 3DPC 12 13 0 13 Jan 2023
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes Ahmed Abdelreheem Kyle Olszewski Hsin-Ying Lee Peter Wonka Panos Achlioptas 3DPC 12 28 0 12 Dec 2022
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding Dave Zhenyu Chen Ronghang Hu Xinlei Chen Matthias Nießner Angel X. Chang 9 52 0 01 Dec 2022
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding Eslam Mohamed Bakr Yasmeen Alsaedy Mohamed Elhoseiny 3DPC 13 41 0 25 Nov 2022
Language-Assisted 3D Feature Learning for Semantic Scene Understanding Junbo Zhang Guo Fan Guanghan Wang Zhèngyuān Sū Kaisheng Ma L. Yi 3DPC 8 7 0 25 Nov 2022
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev 35 73 0 17 Nov 2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding Jiaming Chen Weihua Luo Ran Song Xiaolin K. Wei Lin Ma Wei Emma Zhang 3DV 30 6 0 22 Oct 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 36 62 0 29 Sep 2022
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective Chaoqi Chen Yushuang Wu Qiyuan Dai Hong-Yu Zhou Mutian Xu Sibei Yang Xiaoguang Han Yizhou Yu ViT MedIm AI4CE 25 35 0 27 Sep 2022
Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline Lichen Zhao Daigang Cai Jing Zhang Lu Sheng Dong Xu Ruizhi Zheng Yinjie Zhao Lipeng Wang Xibo Fan 6 23 0 24 Sep 2022
DoRO: Disambiguation of referred object for embodied agents Pradip Pramanick Chayan Sarkar S. Paul R. Roychoudhury Brojeshwar Bhowmick LM&Ro 4 14 0 28 Jul 2022
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases Zhihao Yuan Xu Yan Zhuo Li Xuhao Li Yao Guo Shuguang Cui Zhen Li 18 16 0 05 Jul 2022
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection Jun-Bin Luo Jiahui Fu Xianghao Kong Chen Gao Haibing Ren Hao Shen Huaxia Xia Si Liu 16 61 0 13 Apr 2022
Multi-View Transformer for 3D Visual Grounding Shijia Huang Yilun Chen Jiaya Jia Liwei Wang 6 112 0 05 Apr 2022
Graph Enhanced Contrastive Learning for Radiology Findings Summarization Jinpeng Hu Zhuo Li Zhihong Chen Zhuguo Li Xiang Wan Tsung-Hui Chang MedIm 6 46 0 01 Apr 2022
Text2Pos: Text-to-Point-Cloud Cross-Modal Localization Manuel Kolmet Qunjie Zhou Aljosa Osep Laura Leal-Taixe 11 22 0 28 Mar 2022
MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes Yang Jiao Shaoxiang Chen Zequn Jie Jing Chen Lin Ma Yu-Gang Jiang 3DPC 11 32 0 10 Mar 2022
TriCoLo: Trimodal Contrastive Loss for Text to Shape Retrieval Yue Ruan Han-Hung Lee Yiming Zhang Ke Zhang Angel X. Chang 8 12 0 19 Jan 2022
Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation Xu Yan Zhihao Yuan Yuhao Du Yinghong Liao Yao Guo Zhen Li Shuguang Cui 3DPC CoGe 13 14 0 22 Dec 2021
ScanQA: 3D Question Answering for Spatial Scene Understanding Daich Azuma Taiki Miyanishi Shuhei Kurita M. Kawanabe 24 110 0 20 Dec 2021
Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds Ayush Jain N. Gkanatsios Ishita Mediratta Katerina Fragkiadaki ObjD 15 68 0 16 Dec 2021
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 14 46 0 15 Dec 2021
PartGlot: Learning Shape Part Segmentation from Language Reference Games Juil Koo Ian Huang Panos Achlioptas Leonidas J. Guibas Minhyuk Sung 3DPC 26 28 0 13 Dec 2021
D3Net: A Unified Speaker-Listener Architecture for 3D Dense Captioning and Visual Grounding Dave Zhenyu Chen Qirui Wu Matthias Nießner Angel X. Chang 11 29 0 02 Dec 2021
Panoptic Segmentation: A Review O. Elharrouss S. Al-Maadeed Nandhini Subramanian Najmath Ottakath Noor Almaadeed Yassine Himeur 11 38 0 19 Nov 2021
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding Dailan He Yusheng Zhao Junyu Luo Tianrui Hui Shaofei Huang Aixi Zhang Si Liu ViT 11 74 0 05 Aug 2021
LanguageRefer: Spatial-Language Model for 3D Visual Grounding Junha Roh Karthik Desingh Ali Farhadi D. Fox 8 95 0 07 Jul 2021
SAT: 2D Semantics Assisted Training for 3D Visual Grounding Zhengyuan Yang Songyang Zhang Liwei Wang Jiebo Luo 3DPC 26 89 0 24 May 2021
ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation Adam Paszke Abhishek Chaurasia Sangpil Kim Eugenio Culurciello SSeg 199 2,034 0 07 Jun 2016