Unifying 3D Vision-Language Understanding via Promptable Queries

Unifying 3D Vision-Language Understanding via Promptable Queries

19 May 2024

Xiaojian Ma

Xuesong Niu

Baoxiong Jia

Zhidong Deng

Papers citing "Unifying 3D Vision-Language Understanding via Promptable Queries"

9 / 9 papers shown

Title
ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis Yun Chang Leonor Fermoselle Duy Ta Bernadette Bucher Luca Carlone Jiuguang Wang 30 0 0 09 Apr 2025
ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting Yu Liu Baoxiong Jia Ruijie Lu Junfeng Ni Song-Chun Zhu Siyuan Huang 3DGS 64 7 0 26 Feb 2025
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting Jun Guo Xiaojian Ma Yue Fan Huaping Liu Qing Li 3DGS 33 3 0 22 Mar 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Mask3D: Mask Transformer for 3D Semantic Instance Segmentation Jonas Schult Francis Engelmann Alexander Hermans Or Litany Siyu Tang Bastian Leibe ISeg 41 164 0 06 Oct 2022
EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding Yanmin Wu Xinhua Cheng Renrui Zhang Zesen Cheng Jian Zhang 36 62 0 29 Sep 2022
TEACh: Task-driven Embodied Agents that Chat Aishwarya Padmakumar Jesse Thomason Ayush Shrivastava P. Lange Anjali Narayan-Chen Spandana Gella Robinson Piramithu Gökhan Tür Dilek Z. Hakkani-Tür LM&Ro 138 179 0 01 Oct 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation C. Qi Hao Su Kaichun Mo Leonidas J. Guibas 3DH 3DPC 3DV PINN 210 13,886 0 02 Dec 2016