MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors

ACM Multimedia (MM), 2024

2 May 2024

Yuan Tang

Xu Han

Xianzhi Li

Qiao Yu

Yixue Hao

Long Hu

Min Chen

ArXiv (abs)PDF HTML Github (99★)

Papers citing "MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors"

20 / 20 papers shown

ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes

257

17 Nov 2025

AutoHood3D: A Multi-Modal Benchmark for Automotive Hood Design and Fluid-Structure Interaction

133

05 Nov 2025

3D Aware Region Prompted Vision Language Model

...

169

16 Sep 2025

Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model

Zhuoxu Huang

Mingqi Gao

Jungong Han

199

09 Sep 2025

TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints

102

25 Aug 2025

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

280

31 Jul 2025

BANG: Dividing 3D Assets via Generative Exploded DynamicsACM Transactions on Graphics (TOG), 2025

251

29 Jul 2025

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

312

24 Jul 2025

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

429

05 Jun 2025

Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric VisionComputer Vision and Pattern Recognition (CVPR), 2025

394

04 Jun 2025

OneLLM: One Framework to Align All Modalities with LanguageComputer Vision and Pattern Recognition (CVPR), 2023

711

230

10 Jan 2025

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual PreferencesComputer Vision and Pattern Recognition (CVPR), 2024

531

02 Dec 2024

Scene Co-pilot: Procedural Text to Video Generation with Human in the Loop

351

26 Nov 2024

MICAS: Multi-grained In-Context Adaptive Sampling for 3D Point Cloud ProcessingComputer Vision and Pattern Recognition (CVPR), 2024

372

25 Nov 2024

More Text, Less Point: Towards 3D Data-Efficient Point-Language UnderstandingAAAI Conference on Artificial Intelligence (AAAI), 2024

586

28 Aug 2024

Foundation Models for Autonomous Robots in Unstructured Environments

430

19 Jul 2024

Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

751

17 Jun 2024

A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future DirectionsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Wei Hu

434

09 Jun 2024

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

Xiangtai Li

Ming-Hsuan Yang

476

27 May 2024

Baichuan 2: Open Large-scale Language Models

...

1.0K

966

19 Sep 2023