Dolphins: Multimodal Language Model for Driving

1 December 2023

Yulong Cao

Papers citing "Dolphins: Multimodal Language Model for Driving"

41 / 41 papers shown

Title
Transferable Adversarial Attacks on Black-Box Vision-Language Models Kai Hu Weichen Yu L. Zhang Alexander Robey Andy Zou Chengming Xu Haoqi Hu Matt Fredrikson AAML VLM 47 0 0 02 May 2025
LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving Zhijie Qiao Haowei Li Zhong Cao Henry X. Liu VLM 70 2 0 01 May 2025
Manipulating Multimodal Agents via Cross-Modal Prompt Injection Le Wang Zonghao Ying Tianyuan Zhang Siyuan Liang Shengshan Hu Mingchuan Zhang A. Liu Xianglong Liu AAML 31 1 0 19 Apr 2025
Towards Benchmarking and Assessing the Safety and Robustness of Autonomous Driving on Safety-critical Scenarios Jingzheng Li X. Liu Shikui Wei Zhijun Chen B. Li Qing-Wu Guo Xianqi Yang Yanjun Pu Jiakai Wang AAML ELM 56 0 0 31 Mar 2025
Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving Yue Li Meng Tian Zhenyu Lin Jiangtong Zhu Dechang Zhu Haiqiang Liu Zining Wang Yueyi Zhang Zhiwei Xiong Xinhai Zhao CoGe VLM 78 0 0 27 Mar 2025
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models Dohwan Ko S. Kim Yumin Suh Vijay Kumar B.G Minseo Yoon Manmohan Chandraker Hyunwoo J. Kim LRM 36 0 0 25 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Y. Wang Shengqiong Wu Y. Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 74 7 0 16 Mar 2025
Road Rage Reasoning with Vision-language Models (VLMs): Task Definition and Evaluation Dataset Yibing Weng Yu Gu Fuji Ren 59 0 0 14 Mar 2025
DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning Chengxuan Qian Shuo Xing Shawn Li Yue Zhao Zhengzhong Tu 46 0 0 14 Mar 2025
Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving Enming Zhang Peizhe Gong Xingyuan Dai Yisheng Lv Q. Miao MLLM ELM 60 0 0 09 Mar 2025
VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers Ziang Guo Konstantin Gubernatorov Selamawit Asfaw Zakhar Yagudin Dzmitry Tsetserukou 36 0 0 27 Feb 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 83 10 0 06 Jan 2025
A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future Shilin Sun Wenbin An Feng Tian Fang Nan Qidong Liu J. Liu N. Shah Ping Chen 72 2 0 18 Dec 2024
On Domain-Specific Post-Training for Multimodal Large Language Models Daixuan Cheng Shaohan Huang Ziyu Zhu Xintong Zhang Wayne Xin Zhao Zhongzhi Luan Bo Dai Zhenliang Zhang VLM 87 2 0 29 Nov 2024
On-Board Vision-Language Models for Personalized Autonomous Vehicle Motion Control: System Design and Real-World Validation Can Cui Zichong Yang Yupeng Zhou Juntong Peng Sung-Yeon Park ... Yiheng Feng Jitesh Panchal Lingxi Li Yaobin Chen Ziran Wang 59 4 0 17 Nov 2024
DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving Dingrui Wang Marc Kaufeld Johannes Betz 24 0 0 26 Sep 2024
Towards General Industrial Intelligence: A Survey on IIoT-Enhanced Continual Large Models Jiao Chen Jiayi He Fangfang Chen Zuohong Lv Jianhua Tang Weihua Li Zuozhu Liu Howard H. Yang Guangjie Han AI4CE 34 1 0 02 Sep 2024
How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception Mert Keser Youssef Shoeb Alois Knoll 24 2 0 30 Aug 2024
VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving Keke Long Haotian Shi Jiaxi Liu Xiaopeng Li 30 9 0 09 Aug 2024
Evaluating and Enhancing Trustworthiness of LLMs in Perception Tasks Yang You Jiaqi Han Yinan Yu Christian Berger 16 2 0 18 Jul 2024
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs Qiucheng Wu Handong Zhao Michael Stephen Saxon T. Bui William Yang Wang Yang Zhang Shiyu Chang CoGe 33 4 0 02 Jul 2024
Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving Ran Tian Boyi Li Xinshuo Weng Yuxiao Chen Edward Schmerling Yue Wang B. Ivanovic Marco Pavone 24 13 0 01 Jul 2024
NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking D. Dauner Marcel Hallgarten Tianyu Li Xinshuo Weng Zhiyu Huang ... Igor Gilitschenski B. Ivanovic Marco Pavone Andreas Geiger Kashyap Chitta 36 5 0 21 Jun 2024
Asynchronous Large Language Model Enhanced Planner for Autonomous Driving Yuan-Hsin Chen Zi-han Ding Ziqin Wang Yan Wang Lijun Zhang Si Liu 51 9 0 20 Jun 2024
AD-H: Autonomous Driving with Hierarchical Agents Zaibin Zhang Shiyu Tang Yuanhang Zhang Talas Fu Yifan Wang Yang Liu Dong Wang Jing Shao Lijun Wang H. Lu 42 3 0 05 Jun 2024
DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences Yidong Huang Jacob Sansom Ziqiao Ma Felix Gervits Joyce Chai 33 17 0 05 Jun 2024
The Evolution of Multimodal Model Architectures S. Wadekar Abhishek Chaurasia Aman Chadha Eugenio Culurciello 41 13 0 28 May 2024
Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving Jianbiao Mei Yukai Ma Xuemeng Yang Licheng Wen Xinyu Cai ... Min Dou Botian Shi Liang He Yong-Jin Liu Yu Qiao 22 9 0 24 May 2024
Language-Image Models with 3D Understanding Jang Hyun Cho B. Ivanovic Yulong Cao Edward Schmerling Yue Wang ... Boyi Li Yurong You Philipp Krahenbuhl Yan Wang Marco Pavone LRM 40 15 0 06 May 2024
CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario Zhizhao Duan Hao Cheng Duo Xu Xi Wu Xiangxie Zhang Xi Ye Zhen Xie 16 6 0 06 May 2024
RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model Jianhao Yuan Shuyang Sun Daniel Omeiza Bo-Lu Zhao Paul Newman Lars Kunze Matthew Gadd LRM 9 47 0 16 Feb 2024
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives Sheng Luo Wei-Neng Chen Wanxin Tian Rui Liu Luanxuan Hou ... Ling Shao Yi Yang Bojun Gao Qun Li Guobin Wu 47 3 0 05 Feb 2024
LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model Dilxat Muhtar Zhenshi Li Feng-Xue Gu Xue-liang Zhang P. Xiao 59 46 0 04 Feb 2024
LimSim++: A Closed-Loop Platform for Deploying Multimodal LLMs in Autonomous Driving Daocheng Fu Wenjie Lei Licheng Wen Pinlong Cai Song Mao Min Dou Botian Shi Yu Qiao 31 6 0 02 Feb 2024
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities Xu Yan Haiming Zhang Yingjie Cai Jingming Guo Weichao Qiu ... Lihui Jiang Wei Zhang Hongbo Zhang Dengxin Dai Bingbing Liu 51 16 0 16 Jan 2024
Prospective Role of Foundation Models in Advancing Autonomous Vehicles Jianhua Wu B. Gao Jincheng Gao Jianhao Yu Hongqing Chu ... Xun Gong Yi Chang H. E. Tseng Hong Chen Jie Chen 31 3 0 08 Dec 2023
Towards Knowledge-driven Autonomous Driving Xin Li Yeqi Bai Pinlong Cai Licheng Wen Daocheng Fu ... Yikang Li Botian Shi Yong-Jin Liu Liang He Yu Qiao 26 26 0 07 Dec 2023
LLM4Drive: A Survey of Large Language Models for Autonomous Driving Zhenjie Yang Xiaosong Jia Hongyang Li Junchi Yan ELM 21 92 0 02 Nov 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 198 883 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Meta-learning via Language Model In-context Tuning Yanda Chen Ruiqi Zhong Sheng Zha George Karypis He He 210 155 0 15 Oct 2021