CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous
Driving

CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

19 August 2024

Papers citing "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving"

10 / 10 papers shown

Title
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I Roumeliotis Manoj Karkee LM&Ro 66 0 0 07 May 2025
Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets Guillermo Roque Erika Maquiling Jose Giovanni Tapia Lopez Ross Greer 29 0 0 06 May 2025
Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Pilot Datasets and Exploration Towards Instructive Nonverbal Commands for Cooperative Autonomous Vehicles Tonko E. W. Bossen Andreas Møgelmose Ross Greer 21 0 0 15 Apr 2025
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving Kexin Tian Jingrui Mao Y. Zhang Jiwan Jiang Yang Zhou Zhengzhong Tu CoGe 60 0 0 04 Apr 2025
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning Nvidia A. Azzolini Hannah Brandon Prithvijit Chattopadhyay Huayu Chen ... Yao Xu X. Yang Zhuolin Yang Xiaohui Zeng Z. Zhang LM&Ro LRM AI4CE 48 5 0 18 Mar 2025
System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems Tadahiro Taniguchi Yasushi Hirai Masahiro Suzuki Shingo Murata Takato Horii Kazutoshi Tanaka AI4CE 49 0 0 08 Mar 2025
ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin Linjie Li Difei Gao Z. Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou LLMAG 69 13 0 26 Nov 2024
LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving Hao Sha Yao Mu Yuxuan Jiang Li Chen Chenfeng Xu Ping Luo Shengbo Eben Li Masayoshi Tomizuka Wei Zhan Mingyu Ding 99 154 0 04 Oct 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
DRAMA: Joint Risk Localization and Captioning in Driving Srikanth Malla Chiho Choi Isht Dwivedi Joonhyang Choi Jiachen Li 91 85 0 22 Sep 2022