Robotic Control via Embodied Chain-of-Thought Reasoning

11 July 2024

Michał Zawalski

Sergey Levine

Papers citing "Robotic Control via Embodied Chain-of-Thought Reasoning"

47 / 47 papers shown

Title
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks V. Bhat Yu-Hsiang Lan P. Krishnamurthy Ramesh Karri Farshad Khorrami 35 0 0 09 May 2025
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I Roumeliotis Manoj Karkee LM&Ro 66 0 0 07 May 2025
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications Trisanth Srinivasan Santosh Patapati 21 0 0 03 May 2025
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks Chia-Yu Hung Qi Sun Pengfei Hong Amir Zadeh Chuan Li U-Xuan Tan Navonil Majumder Soujanya Poria LM&Ro 37 1 0 28 Apr 2025
Robotic Task Ambiguity Resolution via Natural Language Interaction Eugenio Chisari Jan Ole von Hartz Fabien Despinoy Abhinav Valada LM&Ro 41 0 0 24 Apr 2025
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation Ning Wang Zihan Yan W. Li Chuan Ma H. Chen Tao Xiang AAML 32 0 0 22 Apr 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 31 5 0 22 Apr 2025
Towards Forceful Robotic Foundation Models: a Literature Survey William Xie N. Correll OffRL 51 0 0 16 Apr 2025
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning Ram Ramrakhya Matthew Chang Xavier Puig Ruta Desai Z. Kira Roozbeh Mottaghi LLMAG LM&Ro 60 0 0 01 Apr 2025
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models Qingqing Zhao Yao Lu Moo Jin Kim Zipeng Fu Zhuoyang Zhang ... Ankur Handa Ming-Yu Liu Donglai Xiang Gordon Wetzstein Tsung-Yi Lin LM&Ro LRM 40 9 0 27 Mar 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks W. Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Y. Zhuang LM&Ro LRM 65 2 0 27 Mar 2025
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning Nvidia A. Azzolini Hannah Brandon Prithvijit Chattopadhyay Huayu Chen ... Yao Xu X. Yang Zhuolin Yang Xiaohui Zeng Z. Zhang LM&Ro LRM AI4CE 48 5 0 18 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Y. Wang Shengqiong Wu Y. Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 74 7 0 16 Mar 2025
Towards Fast, Memory-based and Data-Efficient Vision-Language Policy Haoxuan Li Sixu Yan Y. Li Xinggang Wang LM&Ro 59 0 0 13 Mar 2025
iManip: Skill-Incremental Learning for Robotic Manipulation Zexin Zheng Jia-Feng Cai Xiao-Ming Wu Yi-Lin Wei Yu-Ming Tang Wei-Shi Zheng CLL 49 0 0 10 Mar 2025
PointVLA: Injecting the 3D World into Vision-Language-Action Models Chengmeng Li Junjie Wen Yan Peng Yaxin Peng Feifei Feng Y. X. Zhu 3DPC 67 1 0 10 Mar 2025
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning Borong Zhang Yuhao Zhang Jiaming Ji Yingshan Lei Josef Dai Yuanpei Chen Yaodong Yang 63 3 0 05 Mar 2025
Subtask-Aware Visual Reward Learning from Segmented Demonstrations Changyeon Kim Minho Heo Doohyun Lee Jinwoo Shin Honglak Lee Joseph J. Lim Kimin Lee 32 0 0 28 Feb 2025
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models Lucy Xiaoyang Shi Brian Ichter Michael Equi Liyiming Ke Karl Pertsch ... Adrian Li-Bell Danny Driess Lachy Groom Sergey Levine Chelsea Finn LM&Ro LRM 88 6 0 26 Feb 2025
ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration Minjie Zhu Y. X. Zhu Jinming Li Zhongyi Zhou Junjie Wen Xiaoyu Liu Chaomin Shen Yaxin Peng Feifei Feng LM&Ro 76 2 0 26 Feb 2025
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards Shivansh Patel Xinchen Yin Wenlong Huang Shubham Garg H. Nayyeri Li Fei-Fei Svetlana Lazebnik Y. Li 83 0 0 12 Feb 2025
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu LM&Ro 83 14 0 18 Dec 2024
Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression Junjie Wen Minjie Zhu Y. X. Zhu Zhibin Tang Jinming Li ... Chengmeng Li Xiaoyu Liu Yaxin Peng Chaomin Shen Feifei Feng 85 13 0 04 Dec 2024
CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision Gi-Cheon Kang Junghyun Kim Kyuhwan Shim Jun Ki Lee Byoung-Tak Zhang LM&Ro 85 1 1 01 Nov 2024
GHIL-Glue: Hierarchical Control with Filtered Subgoal Images Kyle Hatch Ashwin Balakrishna Oier Mees Suraj Nair Seohong Park ... Masha Itkina Benjamin Eysenbach Sergey Levine Thomas Kollar Benjamin Burchfiel 42 1 0 26 Oct 2024
Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models Nils Blank Moritz Reuss Marcel Rühle Ömer Erdinç Yagmurlu Fabian Wenzel Oier Mees Rudolf Lioutikov LM&Ro OffRL 26 3 0 23 Oct 2024
Just Add Force for Contact-Rich Robot Policies William Xie Stefan Caldararu N. Correll OffRL 27 0 0 17 Oct 2024
Latent Action Pretraining from Videos Seonghyeon Ye Joel Jang Byeongguk Jeon Sejune Joo Jianwei Yang ... Kimin Lee Jianfeng Gao Luke Zettlemoyer Dieter Fox Minjoon Seo 27 19 0 15 Oct 2024
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation Junjie Wen Y. X. Zhu Jinming Li Minjie Zhu Kun Wu ... Ran Cheng Chaomin Shen Yaxin Peng Feifei Feng Jian Tang LM&Ro 56 41 0 19 Sep 2024
AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots Zhaxizhuoma Pengan Chen Ziniu Wu Jiawei Sun Dong Wang Peng Zhou Nieqing Cao Yan Ding Bin Zhao Xuelong Li 37 4 0 18 Sep 2024
MotIF: Motion Instruction Fine-tuning Minyoung Hwang Joey Hejna Dorsa Sadigh Yonatan Bisk 31 1 0 16 Sep 2024
Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models Gracjan Góral Alicja Ziarko Michal Nauman Maciej Wołczyk LRM 28 1 0 02 Sep 2024
Autonomous Improvement of Instruction Following Skills via Foundation Models Zhiyuan Zhou P. Atreya Abraham Lee Homer Walke Oier Mees Sergey Levine 30 8 0 30 Jul 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 37 5 0 13 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 58 38 0 23 May 2024
Closed Loop Interactive Embodied Reasoning for Robot Manipulation Michal Nazarczuk Jan Kristof Behrens Karla Stepanova Matej Hoffmann K. Mikolajczyk LM&Ro LRM 36 1 0 23 Apr 2024
Yell At Your Robot: Improving On-the-Fly from Language Corrections Lucy Xiaoyang Shi Zheyuan Hu Tony Zhao Archit Sharma Karl Pertsch Jianlan Luo Sergey Levine Chelsea Finn LM&Ro 81 56 0 19 Mar 2024
Vision-Language Models Provide Promptable Representations for Reinforcement Learning William Chen Oier Mees Aviral Kumar Sergey Levine VLM LM&Ro 33 21 0 05 Feb 2024
Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation Zipeng Fu Tony Zhao Chelsea Finn 100 281 0 04 Jan 2024
Audio Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard VGen 55 18 0 13 Mar 2023
Open-World Object Manipulation using Pre-trained Vision-Language Models Austin Stone Ted Xiao Yao Lu K. Gopalakrishnan Kuang-Huei Lee ... Sean Kirmani Brianna Zitkovich F. Xia Chelsea Finn Karol Hausman LM&Ro 139 144 0 02 Mar 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 140 337 0 11 Oct 2022
Grounding Language with Visual Affordances over Unstructured Data Oier Mees Jessica Borja-Diaz Wolfram Burgard LM&Ro 121 106 0 04 Oct 2022
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation Mohit Shridhar Lucas Manuelli D. Fox LM&Ro 141 449 0 12 Sep 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain Datasets F. Ebert Yanlai Yang Karl Schmeckpeper Bernadette Bucher G. Georgakis Kostas Daniilidis Chelsea Finn Sergey Levine 147 212 0 27 Sep 2021