Title
A Review of 3D Object Detection with Vision-Language Models Ranjan Sapkota Konstantinos I Roumeliotis Rahul Harsha Cheppally Marco Flores Calero Manoj Karkee VLM 71 1 0 25 Apr 2025
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models Xiaoyu Tian Junru Gu Bailin Li Yicheng Liu Yang Wang Chenxu Hu Kun Zhan Peng Jia Xianpeng Lang Hang Zhao VLM 59 122 0 19 Feb 2024
Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning Haeju Lee Minchan Jeong SeYoung Yun Kee-Eung Kim AAML VPVLM 47 2 0 13 Feb 2024
Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following Brian Yang Huangyuan Su N. Gkanatsios Tsung-Wei Ke Ayush Jain Jeff Schneider Katerina Fragkiadaki DiffM 29 18 0 09 Feb 2024
Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents Yuxi Wei Zi Wang Yifan Lu Chenxin Xu Chang-rui Liu Hao Zhao Siheng Chen Yanfeng Wang VGen 52 54 0 08 Feb 2024
Text2Street: Controllable Text-to-image Generation for Street Views Jinming Su Songen Gu Yiting Duan Xing‐zhen Chen Junfeng Luo DiffM 29 5 0 07 Feb 2024
Revisiting the Power of Prompt for Visual Tuning Yuzhu Wang Lechao Cheng Chaowei Fang Dingwen Zhang Manni Duan Meng Wang VLM 35 3 0 04 Feb 2024
A Survey for Foundation Models in Autonomous Driving Haoxiang Gao Yaqian Li Kaiwen Long Ming Yang Yiqing Shen VLM LRM 47 22 0 02 Feb 2024
Towards Urban General Intelligence: A Review and Outlook of Urban Foundation Models Weijiao Zhang Jindong Han Zhao Xu Hang Ni Hao Liu Hui Xiong Hui Xiong AI4CE 77 14 0 30 Jan 2024
MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection Yuxue Yang Lue Fan Zhaoxiang Zhang 3DPC 28 1 0 29 Jan 2024
Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning Yang Jiao Zequn Jie Shaoxiang Chen Lechao Cheng Jing Chen Lin Ma Yueping Jiang MDE 46 4 0 13 Dec 2023
CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking and Segmentation Yiming Cui Cheng Han Dongfang Liu VOT 26 16 0 02 Nov 2023
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Hao Sha Yao Mu Yuxuan Jiang Li Chen Chenfeng Xu Ping Luo Shengbo Eben Li Masayoshi Tomizuka Wei Zhan Mingyu Ding 87 154 0 04 Oct 2023
End-to-end Autonomous Driving using Deep Learning: A Systematic Review Apoorv Singh 29 8 0 27 Aug 2023
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation Yu-Quan Wang Yuntao Chen Xingyu Liao Lue Fan Zhaoxiang Zhang 58 42 0 16 Jun 2023
NeRF-LiDAR: Generating Realistic LiDAR Point Clouds with Neural Radiance Fields Junge Zhang Feihu Zhang Shaochen Kuang Li Zhang 3DPC 53 37 0 28 Apr 2023
SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection Yichen Xie Chenfeng Xu Marie-Julie Rakotosaona Patrick Rim F. Tombari Kurt Keutzer M. Tomizuka Wei Zhan 3DPC 28 49 0 27 Apr 2023
TrafficBots: Towards World Models for Autonomous Driving Simulation and Motion Prediction Zhejun Zhang Alexander Liniger Dengxin Dai F. I. F. Richard Yu Luc Van Gool 68 42 0 07 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
DRAMA: Joint Risk Localization and Captioning in Driving Srikanth Malla Chiho Choi Isht Dwivedi Joonhyang Choi Jiachen Li 91 56 0 22 Sep 2022
TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving Kashyap Chitta Aditya Prakash Bernhard Jaeger Zehao Yu Katrin Renz Andreas Geiger ViT 72 291 0 31 May 2022
Edge YOLO: Real-Time Intelligent Object Detection System Based on Edge-Cloud Cooperation in Autonomous Vehicles Siyuan Liang Hao Wu 34 149 0 30 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 255 7,337 0 11 Nov 2021
Multi-task Learning with Attention for End-to-end Autonomous Driving Keishi Ishihara Anssi Kanervisto J. Miura Ville Hautamaki 28 59 0 21 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors Simon Suo S. Regalado Sergio Casas R. Urtasun 134 221 0 17 Jan 2021
Frustratingly Simple Few-Shot Object Detection Xin Wang Thomas E. Huang Trevor Darrell Joseph E. Gonzalez F. I. F. Richard Yu ObjD 73 535 0 16 Mar 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 229 3,029 0 09 Mar 2020