LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

21 December 2023

Shanghang Zhang

Papers citing "LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding"

49 / 49 papers shown

Title
PADriver: Towards Personalized Autonomous Driving Genghua Kou Fan Jia Weixin Mao Y. Liu Yucheng Zhao Ziheng Zhang Osamu Yoshie Tiancai Wang Y. Li X. Zhang 44 0 0 08 May 2025
3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment X. Li J. H. Liu Nuowei Han Liang Heng Y. Guo Hao Dong Yang Liu 48 0 0 03 May 2025
The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? Weichen Zhang Ruiying Peng Chen Gao Jianjie Fang Xin Zeng ... Z. Wang Jinqiang Cui Xin Wang Xinlei Chen Y. Li LRM 71 0 0 06 Apr 2025
StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion Ziyu Guo Young Yoon Lee Joseph Liu Yizhak Ben-Shabat Victor Zordan Mubbasir Kapadia DiffM VGen 66 0 0 27 Mar 2025
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow Ziyue Wang Junde Wu Chang Han Low Yueming Jin LRM 55 1 0 21 Mar 2025
Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation Sihao Lin Daqi Liu Ruochong Fu Dongrui Liu A. Song Hongwei Xie Zhihui Li Bing Wang Xiaojun Chang 72 0 0 10 Mar 2025
Advancing Autonomous Vehicle Intelligence: Deep Learning and Multimodal LLM for Traffic Sign Recognition and Robust Lane Detection Chandan Kumar Sah Ankit Kumar Shaw Xiaoli Lian Arsalan Shahid Baig Tuopu Wen Kun Jiang Mengmeng Yang D. Yang 34 1 0 08 Mar 2025
HEROS-GAN: Honed-Energy Regularized and Optimal Supervised GAN for Enhancing Accuracy and Range of Low-Cost Accelerometers Yifeng Wang Yi Zhao AI4TS 49 0 0 25 Feb 2025
Fully Exploiting Vision Foundation Model's Profound Prior Knowledge for Generalizable RGB-Depth Driving Scene Parsing Sicen Guo Tianyou Wen Chuang-Wei Liu Qijun Chen Rui Fan 55 0 0 10 Feb 2025
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints Mingjie Pan Jiyao Zhang Tianshu Wu Yinghao Zhao Wenlong Gao Hao Dong LM&Ro 47 6 0 08 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 83 10 0 06 Jan 2025
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences Hongyan Zhi Peihao Chen Junyan Li Shuailei Ma Xinyu Sun Tianhang Xiang Yinjie Lei Mingkui Tan Chuang Gan 67 3 0 02 Dec 2024
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation Yueru Jia Jiaming Liu Sixiang Chen Chenyang Gu Z. Wang ... Lily Lee Pengwei Wang Zhongyuan Wang Renrui Zhang Shanghang Zhang 87 11 0 27 Nov 2024
Any2Any: Incomplete Multimodal Retrieval with Conformal Prediction Po-han Li Yunhao Yang Mohammad Omama Sandeep P. Chinchali Ufuk Topcu 25 1 0 15 Nov 2024
Typicalness-Aware Learning for Failure Detection Yijun Liu Jiequan Cui Zhuotao Tian Senqiao Yang Qingdong He Xiaoling Wang Jingyong Su AAML 18 0 0 04 Nov 2024
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments Sangmim Song S. Kodagoda A. Gunatilake Marc G. Carmichael Karthick Thiyagarajan Jodi Martin LM&Ro 28 1 0 28 Oct 2024
CSA: Data-efficient Mapping of Unimodal Features to Multimodal Features Po-han Li Sandeep P. Chinchali Ufuk Topcu 31 1 0 10 Oct 2024
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines Dongzhi Jiang Renrui Zhang Ziyu Guo Yanmin Wu Jiayi Lei ... Guanglu Song Peng Gao Yu Liu Chunyuan Li Hongsheng Li MLLM 27 16 0 19 Sep 2024
Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving Kairui Ding Boyuan Chen Yuchen Su Huan-ang Gao Bu Jin ... Wuqiang Zhang Xiaohui Li Paul Barsch Hongyang Li Hao Zhao 50 3 0 10 Sep 2024
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving Julong Wei Shanshuai Yuan Pengfei Li Qingda Hu Zhongxue Gan Wenchao Ding VLM 21 17 0 05 Sep 2024
Towards General Industrial Intelligence: A Survey on IIoT-Enhanced Continual Large Models Jiao Chen Jiayi He Fangfang Chen Zuohong Lv Jianhua Tang Weihua Li Zuozhu Liu Howard H. Yang Guangjie Han AI4CE 34 1 0 02 Sep 2024
Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis Hiroshi Takato Hiroshi Tsutsui Komei Soda Hidetaka Kamigaito VLM 16 0 0 03 Aug 2024
MAVIS: Mathematical Visual Instruction Tuning Renrui Zhang Xinyu Wei Dongzhi Jiang Yichi Zhang Ziyu Guo ... Aojun Zhou Bin Wei Shanghang Zhang Peng Gao Hongsheng Li MLLM 22 24 0 11 Jul 2024
Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation Tong Shao Zhuotao Tian Hang Zhao Jingyong Su VLM 29 14 0 11 Jul 2024
Slice-100K: A Multimodal Dataset for Extrusion-based 3D Printing Anushrut Jignasu Kelly O. Marshall Ankush Kumar Mishra Lucas Nerone Rillo Baskar Ganapathysubramanian Aditya Balu Chinmay Hegde Adarsh Krishnamurthy 27 0 0 04 Jul 2024
AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation Chuyan Xiong Chengyu Shen Xiaoqi Li Kaichen Zhou Jiaming Liu Ruiping Wang Hao Dong LRM 30 10 0 17 Jun 2024
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation Jiaming Liu Mengzhen Liu Zhenyu Wang Lily Lee Kaichen Zhou Pengju An Senqiao Yang Renrui Zhang Yandong Guo Shanghang Zhang LM&Ro LRM Mamba 27 5 0 06 Jun 2024
Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Expression Comprehension Runwei Guan Ruixiao Zhang Ningwei Ouyang Jianan Liu Ka Lok Man ... Ming Xu Jeremy S. Smith Eng Gee Lim Yutao Yue Hui Xiong 46 8 0 21 May 2024
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models Xianzheng Ma Yash Bhalgat Brandon Smart Shuai Chen Xinghui Li ... Matthias Nießner Ian D Reid Angel X. Chang Iro Laina V. Prisacariu LRM 29 11 0 16 May 2024
MiniGPT-3D: Efficiently Aligning 3D Point Clouds with Large Language Models using 2D Priors Yuan Tang Xu Han Xianzhi Li Qiao Yu Yixue Hao Long Hu Min Chen 24 14 0 02 May 2024
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding Yiwen Tang Ray Zhang Jiaming Liu Zoey Guo Dong Wang ... Bin Zhao Shanghang Zhang Peng Gao Hongsheng Li Xuelong Li 33 10 0 11 Apr 2024
Unified Language-driven Zero-shot Domain Adaptation Senqiao Yang Zhuotao Tian Li Jiang Jiaya Jia 26 7 0 10 Apr 2024
TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes Bu Jin Yupeng Zheng Pengfei Li Weize Li Yuhang Zheng ... Kun Zhan Peng Jia Xiaoxiao Long Yilun Chen Hao Zhao 3DV 50 14 0 28 Mar 2024
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models Chris Liu Renrui Zhang Longtian Qiu Siyuan Huang Weifeng Lin ... Hao Shao Pan Lu Hongsheng Li Yu Qiao Peng Gao MLLM 120 106 0 08 Feb 2024
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives Sheng Luo Wei-Neng Chen Wanxin Tian Rui Liu Luanxuan Hou ... Ling Shao Yi Yang Bojun Gao Qun Li Guobin Wu 47 13 0 05 Feb 2024
A Survey for Foundation Models in Autonomous Driving Haoxiang Gao Yaqian Li Kaiwen Long Ming Yang Yiqing Shen VLM LRM 53 22 0 02 Feb 2024
EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain Wei Zhang Miaoxin Cai Tong Zhang Zhuang Yin Xuerui Mao 11 83 0 30 Jan 2024
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities Xu Yan Haiming Zhang Yingjie Cai Jingming Guo Weichao Qiu ... Lihui Jiang Wei Zhang Hongbo Zhang Dengxin Dai Bingbing Liu 51 16 0 16 Jan 2024
A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook Mingyu Liu Ekim Yurtsever Jonathan Fossaert Xingcheng Zhou Walter Zimmer Yuning Cui B. L. Žagar Alois C. Knoll 40 34 0 02 Jan 2024
Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation Jiaming Liu Ran Xu Senqiao Yang Renrui Zhang Qizhe Zhang Zehui Chen Yandong Guo Shanghang Zhang TTA 22 10 0 19 Dec 2023
Vision Language Models in Autonomous Driving: A Survey and Outlook Xingcheng Zhou Mingyu Liu Ekim Yurtsever B. L. Žagar Walter Zimmer Hu Cao Alois C. Knoll VLM 15 33 0 22 Oct 2023
V2X Cooperative Perception for Autonomous Driving: Recent Advances and Challenges Tao Huang Jianan Liu Xi Zhou Dinh C. Nguyen M. R. Azghadi Yuxuan Xia Qing-Long Han Sumei Sun 52 35 0 05 Oct 2023
Distribution-Aware Continual Test-Time Adaptation for Semantic Segmentation Jiayin Ni Senqiao Yang Ran Xu Jiaming Liu Xiaoqi Li Wenyu Jiao Zehui Chen Yi Liu Shanghang Zhang TTA 17 7 0 24 Sep 2023
RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering Supervision Mingjie Pan Jiaming Liu Renrui Zhang Peixiang Huang Xiaoqi Li Bing Wang Hongwei Xie Li Liu Shanghang Zhang 57 75 0 18 Sep 2023
ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation Jiaming Liu Senqiao Yang Peidong Jia Renrui Zhang Ming Lu Yandong Guo Wei Xue Shanghang Zhang TTA OOD VLM 20 36 0 07 Jun 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
BEVUDA: Multi-geometric Space Alignments for Domain Adaptive BEV 3D Object Detection Jiaming Liu Rongyu Zhang Xiaoqi Li Xiaowei Chi Zehui Chen Ming Lu Yandong Guo Shanghang Zhang 3DPC 29 4 0 30 Nov 2022
Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer Jiaming Liu Qizhe Zhang Jianing Li Ming Lu Tiejun Huang Shanghang Zhang 16 10 0 26 Aug 2022
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021