Bottom Up Top Down Detection Transformers for Language Grounding in
Images and Point Clouds

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

16 December 2021

Ishita Mediratta

Katerina Fragkiadaki

Papers citing "Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds"

14 / 14 papers shown

Title
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding Feng Xiao Hongbin Xu Guocan Zhao Wenxiong Kang 34 0 0 07 May 2025
SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models Nader Zantout Haochen Zhang Pujith Kachana J. Qiu Ji Zhang Wenshan Wang LM&Ro LRM 47 0 0 25 Apr 2025
Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation Junrong Yue Y. Zhang Chuan Qin Bo Li Xiaomin Lie Xinlei Yu Wenxin Zhang Zhendong Zhao 43 0 0 23 Apr 2025
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness Chenming Zhu Tai Wang Wenwei Zhang Jiangmiao Pang Xihui Liu 84 29 0 26 Sep 2024
Bayesian Self-Training for Semi-Supervised 3D Segmentation Ozan Unal Christos Sakaridis Luc Van Gool 3DPC 3DV 21 0 0 12 Sep 2024
Talk to Parallel LiDARs: A Human-LiDAR Interaction Method Based on 3D Visual Grounding Yuhang Liu Boyi Sun Guixu Zheng Yishuo Wang Jing Wang Fei-Yue Wang 26 2 0 24 May 2024
MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding Chun-Peng Chang Shaoxiang Wang A. Pagani Didier Stricker 30 7 0 05 Mar 2024
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 47 4 0 15 Dec 2023
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding Zhihao Yuan Jinke Ren Chun-Mei Feng Hengshuang Zhao Shuguang Cui Zhen Li 13 26 0 26 Nov 2023
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent Jianing Yang Xuweiyi Chen Shengyi Qian Nikhil Madaan Madhavan Iyengar David Fouhey Joyce Chai LM&Ro LLMAG 19 84 0 21 Sep 2023
A Unified Framework for 3D Point Cloud Visual Grounding Haojia Lin Yongdong Luo Xiawu Zheng Lijiang Li Fei Chao Taisong Jin Donghao Luo Yan Wang Liujuan Cao Rongrong Ji 19 2 0 23 Aug 2023
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding Dave Zhenyu Chen Ronghang Hu Xinlei Chen Matthias Nießner Angel X. Chang 14 52 0 01 Dec 2022
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 59 128 0 01 Mar 2021
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 139 1,458 0 06 Jun 2016