Distilling Internet-Scale Vision-Language Models into Embodied Agents

Distilling Internet-Scale Vision-Language Models into Embodied Agents

29 January 2023

Arun Ahuja

Ishita Dasgupta

Papers citing "Distilling Internet-Scale Vision-Language Models into Embodied Agents"

12 / 12 papers shown

Title
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
Vision-Language Models as a Source of Rewards Kate Baumli Satinder Baveja Feryal M. P. Behbahani Harris Chan Gheorghe Comanici ... Yannick Schroecker Stephen Spencer Richie Steigerwald Luyu Wang Lei Zhang VLM LRM 32 26 0 14 Dec 2023
Cognitive Architectures for Language Agents T. Sumers Shunyu Yao Karthik Narasimhan Thomas L. Griffiths LLMAG LM&Ro 34 150 0 05 Sep 2023
Improving Policy Learning via Language Dynamics Distillation Victor Zhong Jesse Mu Luke Zettlemoyer Edward Grefenstette Tim Rocktaschel OffRL 32 15 0 30 Sep 2022
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models Ishika Singh Valts Blukis Arsalan Mousavian Ankit Goyal Danfei Xu Jonathan Tremblay D. Fox Jesse Thomason Animesh Garg LM&Ro LLMAG 112 616 0 22 Sep 2022
Open-vocabulary Queryable Scene Representations for Real World Planning Boyuan Chen F. Xia Brian Ichter Kanishka Rao K. Gopalakrishnan Michael S. Ryoo Austin Stone Daniel Kappler LM&Ro 144 179 0 20 Sep 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 139 430 0 10 Jul 2022
ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings Arjun Majumdar Gunjan Aggarwal Bhavika Devnani Judy Hoffman Dhruv Batra LM&Ro 147 148 0 24 Jun 2022
Skill Induction and Planning with Latent Language Pratyusha Sharma Antonio Torralba Jacob Andreas LM&Ro 190 108 0 04 Oct 2021
iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks Chengshu Li Fei Xia Roberto Martín-Martín Michael Lingelbach S. Srivastava ... Karen Liu H. Gweon Jiajun Wu Li Fei-Fei Silvio Savarese LM&Ro 144 219 0 06 Aug 2021
Interactive Learning from Activity Description Khanh Nguyen Dipendra Kumar Misra Robert Schapire Miroslav Dudík Patrick Shafto 45 34 0 13 Feb 2021
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 240 495 0 07 Jun 2018