Title
ADAPT: Actively Discovering and Adapting to Preferences for any Task Maithili Patel Xavier Puig Ruta Desai Roozbeh Mottaghi Sonia Chernova Joanne Truong Akshara Rai 36 0 0 05 Apr 2025
OpenLex3D: A New Evaluation Benchmark for Open-Vocabulary 3D Scene Representations Christina Kassab Sacha Morin Martin Buchner Matías Mattamala Kumaraditya Gupta Abhinav Valada Liam Paull Maurice F. Fallon 3DV ELM 41 0 0 25 Mar 2025
MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation Zhenyu Wu Yuheng Zhou Xiuwei Xu Z. Wang Haibin Yan 41 2 0 17 Mar 2025
MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation P. Zhang Xianqiang Gao Yuhan Wu Kehui Liu Dong Wang Z. Wang Bin Zhao Yan Ding X. Li LM&Ro 51 1 0 14 Mar 2025
Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter Kechun Xu Xunlong Xia Kaixuan Wang Yifei Yang Yunxuan Mao Bing Deng R. Xiong Y. Wang OffRL 64 0 0 12 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 56 0 0 11 Mar 2025
BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities Yunfan Jiang Ruohan Zhang J. Wong Chen Wang Yanjie Ze Hang Yin Cem Gokmen Shuran Song Jiajun Wu L. Fei-Fei 67 5 0 07 Mar 2025
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation Zekun Qi Wenyao Zhang Yufei Ding Runpei Dong Xinqiang Yu ... Xin Jin Kaisheng Ma Zhizheng Zhang He Wang Li Yi LM&Ro 131 3 0 18 Feb 2025
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards Shivansh Patel Xinchen Yin Wenlong Huang Shubham Garg H. Nayyeri Li Fei-Fei Svetlana Lazebnik Y. Li 85 0 0 12 Feb 2025
RobotMover: Learning to Move Large Objects From Human Demonstrations Tianyu Li Joanne Truong Jimmy Yang Alexander William Clegg Akshara Rai Sehoon Ha Xavier Puig AI4CE 55 0 0 07 Feb 2025
Open-Vocabulary Mobile Manipulation Based on Double Relaxed Contrastive Learning with Dense Labeling Daichi Yashima Ryosuke Korekata Komei Sugiura 67 0 0 21 Dec 2024
BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation Rutav Shah Albert Yu Yifeng Zhu Yuke Zhu Roberto Martín-Martín LM&Ro 29 6 0 08 Oct 2024
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI Ahmad Elawady Gunjan Chhablani Ram Ramrakhya Karmesh Yadav Dhruv Batra Z. Kira Andrew Szot OffRL 21 0 0 03 Oct 2024
Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant Anxing Xiao Nuwan Janaka Tianrun Hu Anshul Gupta Kaixin Li Cunjun Yu David Hsu LM&Ro 22 3 0 30 Sep 2024
MotIF: Motion Instruction Fine-tuning Minyoung Hwang Joey Hejna Dorsa Sadigh Yonatan Bisk 42 1 0 16 Sep 2024
Target-Oriented Object Grasping via Multimodal Human Guidance Pengwei Xie Siang Chen Dingchang Hu Yixiang Dai Kaiqin Yang Guijin Wang 30 2 0 20 Aug 2024
DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions Ryosuke Korekata Kanta Kaneda Shunya Nagashima Yuto Imai Komei Sugiura ObjD LM&Ro 37 2 0 15 Aug 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 21 4 0 26 Jul 2024
Navi2Gaze: Leveraging Foundation Models for Navigation and Target Gazing Jun Zhu Zihao Du Haotian Xu Fengbo Lan Zilong Zheng Bo Ma Shengjie Wang Tao Zhang 26 2 0 12 Jul 2024
Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge Sriram Yenamandra Arun Ramachandran Mukul Khanna Karmesh Yadav Jay Vakil ... Z. Kira Dhruv Batra Roozbeh Mottaghi Yonatan Bisk Chris Paxton LM&Ro 47 6 0 09 Jul 2024
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI Y. Liu Weixing Chen Yongjie Bai Xiaodan Liang Guanbin Li Wen Gao Liang Lin LM&Ro SyDa AI4CE 48 27 0 09 Jul 2024
Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models Takayuki Nishimura Katsuyuki Kuyo Motonari Kambara Komei Sugiura DiffM 22 0 0 01 Jul 2024
PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators Kuo-Hao Zeng Zichen Zhang Kiana Ehsani Rose Hendrix Jordi Salvador Alvaro Herrasti Ross Girshick Aniruddha Kembhavi Luca Weihs LM&Ro OffRL 29 17 0 28 Jun 2024
HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid Xinyu Xu Yizheng Zhang Yong-Lu Li Lei Han Cewu Lu 35 7 0 28 Jun 2024
Open-vocabulary Mobile Manipulation in Unseen Dynamic Environments with 3D Semantic Maps Dicong Qiu Wenzong Ma Zhenfu Pan Hui Xiong Junwei Liang LM&Ro 22 7 0 26 Jun 2024
Human-centered In-building Embodied Delivery Benchmark Zhuoqun Xu Yang Liu Xiaoqi Li Jiyao Zhang Hao Dong 38 0 0 25 Jun 2024
VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought Gabriel H. Sarch Lawrence Jang Michael J. Tarr William W. Cohen Kenneth Marino Katerina Fragkiadaki LLMAG 31 0 0 20 Jun 2024
CoNav: A Benchmark for Human-Centered Collaborative Navigation Changhao Li Xinyu Sun Peihao Chen Jugang Fan Zixu Wang Yanxia Liu Jinhui Zhu Chuang Gan Mingkui Tan 37 1 0 04 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 60 38 0 23 May 2024
TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction Yunfan Jiang Chen Wang Ruohan Zhang Jiajun Wu Fei-Fei Li OnRL 30 20 0 16 May 2024
Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control Gunshi Gupta Karmesh Yadav Y. Gal Dhruv Batra Z. Kira Cong Lu Tim G. J. Rudner 31 7 0 09 May 2024
HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models Gabriel H. Sarch Sahil Somani Raghav Kapoor Michael J. Tarr Katerina Fragkiadaki LM&Ro LLMAG 18 3 0 29 Apr 2024
LEGENT: Open Platform for Embodied Agents Zhili Cheng Zhitong Wang Jinyi Hu Shengding Hu An Liu Yuge Tu Pengkai Li Lei Shi Zhiyuan Liu Maosong Sun VLM 20 6 0 28 Apr 2024
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V Peiyuan Zhi Zhiyuan Zhang Muzhi Han Zeyu Zhang Zhitian Li Ziyuan Jiao Ziyuan Jiao Siyuan Huang Siyuan Huang LRM LM&Ro 38 28 0 16 Apr 2024
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers Vidhi Jain Maria Attarian Nikhil J. Joshi Ayzaan Wahid Danny Driess ... Stefan Welker Christine Chan Igor Gilitschenski Yonatan Bisk Debidatta Dwibedi 65 27 0 19 Mar 2024
Prioritized Semantic Learning for Zero-shot Instance Navigation Xander Sun Louis Lau Hoyard Zhi Ronghe Qiu Junwei Liang 25 8 0 18 Mar 2024
Learning Generalizable Feature Fields for Mobile Manipulation Ri-Zhao Qiu Yafei Hu Ge Yang Yuchen Song Yang Fu ... Jiteng Mu Ruihan Yang Nikolay A. Atanasov Sebastian Scherer Xiaolong Wang 26 25 0 12 Mar 2024
MOSAIC: A Modular System for Assistive and Interactive Cooking Huaxiaoyue Wang K. Kedia Juntao Ren Rahma Abdullah Atiksh Bhardwaj ... Maximus Adrian Pace Yash Sharma Xiangwan Sun Neha Sunkara Sanjiban Choudhury 35 12 0 29 Feb 2024
Opening Articulated Structures in the Real World Arjun Gupta Michelle Zhang Rishik Sathua Saurabh Gupta 21 1 0 27 Feb 2024
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation Jiazhao Zhang Kunyu Wang Rongtao Xu Gengze Zhou Yicong Hong Xiaomeng Fang Qi Wu Zhizheng Zhang Wang He LM&Ro 24 11 0 24 Feb 2024
Verifiably Following Complex Robot Instructions with Foundation Models Benedict Quartey Eric Rosen Stefanie Tellex G. Konidaris LM&Ro 39 10 0 18 Feb 2024
Real-World Robot Applications of Foundation Models: A Review Kento Kawaharazuka T. Matsushima Andrew Gambardella Jiaxian Guo Chris Paxton Andy Zeng OffRL VLM LM&Ro 41 45 0 08 Feb 2024
V-IRL: Grounding Virtual Intelligence in Real Life Jihan Yang Runyu Ding Ellis L Brown Xiaojuan Qi Saining Xie LM&Ro 46 18 0 05 Feb 2024
MAkEable: Memory-centered and Affordance-based Task Execution Framework for Transferable Mobile Manipulation Skills Christoph Pohl Fabian Reister Fabian Peller-Konrad Tamim Asfour 19 4 0 30 Jan 2024
Adaptive Mobile Manipulation for Articulated Objects In the Open World Haoyu Xiong Russell Mendonca Kenneth Shaw Deepak Pathak 22 37 0 25 Jan 2024
OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics Peiqi Liu Yaswanth Orru Jay Vakil Chris Paxton Nur Muhammad (Mahi) Shafiullah Lerrel Pinto LM&Ro VLM 86 27 0 22 Jan 2024
Seeing the Unseen: Visual Common Sense for Semantic Placement Ram Ramrakhya Aniruddha Kembhavi Dhruv Batra Z. Kira Kuo-Hao Zeng Luca Weihs VLM 33 4 0 15 Jan 2024
AffordanceLLM: Grounding Affordance from Vision Language Models Shengyi Qian Weifeng Chen Min Bai Xiong Zhou Zhuowen Tu Li Erran Li 8 20 0 12 Jan 2024
UniTeam: Open Vocabulary Mobile Manipulation Challenge Andrew Melnik Michael Büttner Leon Harz Lyon Brown G. C. Nandi PS Arjun Gaurav Kumar Yadav Rahul Kala R. Haschke LM&Ro 22 12 0 14 Dec 2023
Foundation Models in Robotics: Applications, Challenges, and the Future Roya Firoozi Johnathan Tucker Stephen Tian Anirudha Majumdar Jiankai Sun ... Brian Ichter Danny Driess Jiajun Wu Cewu Lu Mac Schwager LM&Ro AI4CE LRM VLM 33 136 0 13 Dec 2023