Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

10 August 2021

Govind Thattai

Papers citing "Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion"

20 / 20 papers shown

Title
A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI Lik Hang Kenny Wong Xueyang Kang Kaixin Bai Jianwei Zhang 56 0 0 01 May 2025
OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following Haochen Shi Zhiyuan Sun Xingdi Yuan Marc-Alexandre Côté Bang Liu LLMAG 32 10 0 05 Mar 2024
DetermiNet: A Large-Scale Diagnostic Dataset for Complex Visually-Grounded Referencing using Determiners Clarence Lee M Ganesh Kumar Cheston Tan 28 3 0 07 Sep 2023
Language Models Meet World Models: Embodied Experiences Enhance Language Models Jiannan Xiang Tianhua Tao Yi Gu Tianmin Shu Zirui Wang Zichao Yang Zhiting Hu ALM LLMAG LM&Ro CLL 31 94 0 18 May 2023
Embodied Concept Learner: Self-supervised Learning of Concepts and Mapping through Instruction Following Mingyu Ding Yan Xu Zhenfang Chen David D. Cox Ping Luo J. Tenenbaum Chuang Gan LM&Ro 56 21 0 07 Apr 2023
ENTL: Embodied Navigation Trajectory Learner Klemen Kotar Aaron Walsman Roozbeh Mottaghi 15 6 0 05 Apr 2023
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling Kolby Nottingham Prithviraj Ammanabrolu Alane Suhr Yejin Choi Hannaneh Hajishirzi Sameer Singh Roy Fox LLMAG LM&Ro 42 76 0 28 Jan 2023
OpenD: A Benchmark for Language-Driven Door and Drawer Opening Yizhou Zhao Qiaozi Gao Liang Qiu Govind Thattai Gaurav Sukhatme 16 5 0 10 Dec 2022
DANLI: Deliberative Agent for Following Natural Language Instructions Yichi Zhang Jianing Yang Jiayi Pan Shane Storks N. Devraj Ziqiao Ma Keunwoo Peter Yu Yuwei Bao J. Chai LM&Ro 50 16 0 22 Oct 2022
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues Jason Armitage L. Impett Rico Sennrich 16 5 0 24 Jul 2022
Pre-Trained Language Models for Interactive Decision-Making Shuang Li Xavier Puig Chris Paxton Yilun Du Clinton Jia Wang ... Anima Anandkumar Jacob Andreas Igor Mordatch Antonio Torralba Yuke Zhu LM&Ro 34 246 0 03 Feb 2022
Learning to Act with Affordance-Aware Multimodal Neural SLAM Zhiwei Jia Kaixiang Lin Yizhou Zhao Qiaozi Gao Govind Thattai Gaurav Sukhatme LM&Ro 23 15 0 24 Jan 2022
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents Wenlong Huang Pieter Abbeel Deepak Pathak Igor Mordatch LM&Ro 26 1,053 0 18 Jan 2022
A Persistent Spatial Semantic Representation for High-level Natural Language Instruction Execution Valts Blukis Chris Paxton D. Fox Animesh Garg Yoav Artzi LM&Ro 212 133 0 12 Jul 2021
CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation A. Magassouba K. Sugiura Hisashi Kawai 51 10 0 01 Mar 2021
Are We There Yet? Learning to Localize in Embodied Instruction Following Shane Storks Qiaozi Gao Govind Thattai Gökhan Tür LM&Ro 37 11 0 09 Jan 2021
The RobotSlang Benchmark: Dialog-guided Robot Localization and Navigation Shurjo Banerjee Jesse Thomason Jason J. Corso LM&Ro 67 30 0 23 Oct 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 257 496 0 07 Jun 2018
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016