Title
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks V. Bhat Yu-Hsiang Lan P. Krishnamurthy Ramesh Karri Farshad Khorrami 41 0 0 09 May 2025
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments Pranav Guruprasad Yangyue Wang Sudipta Chowdhury Harshvardhan Sikka LM&Ro VLM 57 0 0 08 May 2025
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I Roumeliotis Manoj Karkee LM&Ro 66 0 0 07 May 2025
Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions Cunxin Fan Xiaosong Jia Yihang Sun Yixiao Wang Jianglan Wei ... Xiangyu Zhao M. Tomizuka Xue Yang Junchi Yan Mingyu Ding LM&Ro VLM 54 2 0 04 May 2025
PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations Haowen Sun H. Wang Chengzhong Ma Shaolong Zhang Jiawei Ye Xingyu Chen Xuguang Lan OffRL 53 1 0 29 Apr 2025
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks Chia-Yu Hung Qi Sun Pengfei Hong Amir Zadeh Chuan Li U-Xuan Tan Navonil Majumder Soujanya Poria LM&Ro 37 1 0 28 Apr 2025
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation Phillip Y. Lee Jihyeon Je Chanho Park Mikaela Angelina Uy Leonidas J. Guibas Minhyuk Sung LRM 41 0 0 24 Apr 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 31 5 0 22 Apr 2025