LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

26 September 2024

Papers citing "LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness"

20 / 20 papers shown

Title
A Review of 3D Object Detection with Vision-Language Models Ranjan Sapkota Konstantinos I Roumeliotis Rahul Harsha Cheppally Marco Flores Calero Manoj Karkee VLM 45 107 0 25 Apr 2025
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs Chun-Hsiao Yeh Chenyu Wang Shengbang Tong Ta-Ying Cheng Rouyu Wang Tianzhe Chu Yuexiang Zhai Yubei Chen Shenghua Gao Yi Ma LRM 24 0 0 21 Apr 2025
The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? Weichen Zhang Ruiying Peng Chen Gao Jianjie Fang Xin Zeng ... Z. Wang Jinqiang Cui Xin Wang Xinlei Chen Y. Li LRM 37 0 0 06 Apr 2025
Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision Xiaofeng Han Shunpeng Chen Zenghuang Fu Zhe Feng Lue Fan ... Li Guo Weiliang Meng Xiaopeng Zhang Rongtao Xu Shibiao Xu 35 0 0 03 Apr 2025
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness Haochen Wang Yucheng Zhao Tiancai Wang Haoqiang Fan X. Zhang Zhaoxiang Zhang 38 0 0 02 Apr 2025
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D Jiahui Zhang Yurui Chen Yanpeng Zhou Yueming Xu Ze Huang ... Xinyue Cai G. Huang Xingyue Quan Hang Xu Li Zhang LRM 37 0 0 29 Mar 2025
NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving Fuhao Li Huan Jin Bin-Bin Gao Liaoyuan Fan Lihui Jiang Long Zeng 37 0 0 28 Mar 2025
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis J. Huang Baoxiong Jia Y. Wang Ziyu Zhu Xiongkun Linghu Qing Li Song-Chun Zhu Siyuan Huang 44 2 0 28 Mar 2025
PAVE: Patching and Adapting Video Large Language Models Zhuoming Liu Yiquan Li Khoi Duc Nguyen Yiwu Zhong Yin Li KELM LRM 50 0 0 25 Mar 2025
ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail Chandan Yeshwanth Dávid Rozenberszki Angela Dai 35 0 0 21 Mar 2025
GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions Xiaomeng Chu Jiajun Deng Guoliang You Wei Liu X. Li Jianmin Ji Y. Zhang 41 0 0 20 Mar 2025
MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs Erik Daxberger Nina Wenzel David Griffiths Haiming Gang Justin Lazarow ... Kai Kang Marcin Eichner Y. Yang Afshin Dehghan Peter Grasch 44 2 0 17 Mar 2025
PointVLA: Injecting the 3D World into Vision-Language-Action Models Chengmeng Li Junjie Wen Yan Peng Yaxin Peng Feifei Feng Y. X. Zhu 3DPC 38 0 0 10 Mar 2025
SplatTalk: 3D VQA with Gaussian Splatting Anh Thai Songyou Peng Kyle Genova Leonidas J. Guibas Thomas Funkhouser 3DGS 43 0 0 08 Mar 2025
Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning Hanxun Yu Wentong Li Song Wang J. Chen Jianke Zhu 3DV LRM 37 1 0 01 Mar 2025
QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries N. H. Chapman Feras Dayoub Will N. Browne Christopher F. Lehnert VLM 39 0 0 26 Feb 2025
Introducing Visual Perception Token into Multimodal Large Language Model Runpeng Yu Xinyin Ma Xinchao Wang MLLM LRM 37 0 0 24 Feb 2025
Hypo3D: Exploring Hypothetical Reasoning in 3D Ye Mao Weixun Luo Junpeng Jing Anlan Qiu K. Mikolajczyk 38 0 0 02 Feb 2025
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models Zhangyang Qi Zhixiong Zhang Ye Fang Jiaqi Wang Hengshuang Zhao 41 3 0 02 Jan 2025
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces Jihan Yang Shusheng Yang Anjali W. Gupta Rilyn Han Li Fei-Fei Saining Xie LRM 84 45 0 18 Dec 2024