v1v2 (latest)

Episodic Transformer for Vision-and-Language Navigation

IEEE International Conference on Computer Vision (ICCV), 2021

13 May 2021

Papers citing "Episodic Transformer for Vision-and-Language Navigation"

50 / 140 papers shown

Title
CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models Catherine Glossop William Chen Arjun Bhorkar Dhruv Shah Sergey Levine LM&Ro 124 4 0 19 Aug 2025
Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation P. Zhang Yifei Su Pengyuan Wu Dong An Li Zhang Zhigang Wang Dong Wang Yan Ding Jiangwei Zhong Xuelong Li LM&Ro 348 2 0 27 May 2025
RetroMotion: Retrocausal Motion Forecasting Models are Instructable Royden Wagner Ömer Sahin Tas Felix Hauser Marlon Steiner Dominik Strutz Abhishek Vivekanandan Carlos Fernandez Christoph Stiller 236 0 0 26 May 2025
VISTA: Generative Visual Imagination for Vision-and-Language Navigation Yanjia Huang Mingyang Wu Renjie Li Zhengzhong Tu LM&Ro 509 2 0 09 May 2025
A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI Lik Hang Kenny Wong Xueyang Kang Kaixin Bai Jianwei Zhang 326 9 0 01 May 2025
LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps Yihao Wang Raphael Memmesheimer Sven Behnke LM&Ro 170 0 0 15 Mar 2025
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task PlanningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Siyin Wang Zhaoye Fei Qinyuan Cheng Shanghang Zhang Panpan Cai Jinlan Fu Xipeng Qiu 216 10 0 13 Mar 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Joey Tianyi Zhou Parisa Kordjamshidi LRM 351 59 0 31 Dec 2024
Referencing Where to Focus: Improving VisualGrounding with Referential QueryNeural Information Processing Systems (NeurIPS), 2024 Yabing Wang Zhuotao Tian Q. Guo Zheng Qin Sanping Zhou Ming Yang Le Wang ObjD 132 1 0 26 Dec 2024
Vision-Language Navigation with Energy-Based PolicyNeural Information Processing Systems (NeurIPS), 2024 Rui Liu Wenguan Wang Yue Yang 197 16 0 18 Oct 2024
EPO: Hierarchical LLM Agents with Environment Preference OptimizationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Qi Zhao Haotian Fu Chen Sun George Konidaris 240 22 0 28 Aug 2024
Towards Coarse-grained Visual Language Navigation Task Planning Enhanced by Event Knowledge GraphInternational Conference on Information and Knowledge Management (CIKM), 2024 Zhao Kaichen Song Yaoxian Zhao Haiquan Liu Haoyu Li Tiefeng Li Zhixu 174 1 0 05 Aug 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 234 12 0 26 Jul 2024
HAPFI: History-Aware Planning based on Fused Information Sujin Jeon Suyeon Shin Byoung-Tak Zhang 152 1 0 23 Jul 2024
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control Xinyu Xu Shengcheng Luo Yanchao Yang Yong-Lu Li Cewu Lu LM&Ro 214 2 0 20 Jul 2024
Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions Heng Li Heng Li Zhi-Qi Cheng Yifei Dong Yuxuan Zhou Jun-Yan He Jingdong Sun Teruko Mitamura Alexander G. Hauptmann LM&Ro 232 18 0 27 Jun 2024
Human-centered In-building Embodied Delivery Benchmark Zhuoqun Xu Yang Liu Xiaoqi Li Jiyao Zhang Hao Dong 202 1 0 25 Jun 2024
ET tu, CLIP? Addressing Common Object Errors for Unseen Environments Ye Won Byun Cathy Jiao Shahriar Noroozizadeh Jimin Sun Rosa Vitiello VLM 201 1 0 25 Jun 2024
VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought Gabriel H. Sarch Lawrence Jang Michael J. Tarr William W. Cohen Kenneth Marino Katerina Fragkiadaki LLMAG 603 0 0 20 Jun 2024
Embodied Instruction Following in Unknown Environments Zhenyu Wu Ziwei Wang Xiuwei Xu Hang Yin Yinan Liang Angyuan Ma Jiwen Lu Haibin Yan LM&Ro 248 5 0 17 Jun 2024
Augmented Commonsense Knowledge for Remote Object Grounding Bahram Mohammadi Yicong Hong Yuankai Qi Qi Wu Shirui Pan Javen Qinfeng Shi 193 18 0 03 Jun 2024
Transformers for Image-Goal Navigation Nikhilanj Pelluri ViT 281 2 0 23 May 2024
From CNNs to Transformers in Multimodal Human Action Recognition: A Survey Muhammad Bilal Shaikh Syed Mohammed Shamsul Islam Douglas Chai Naveed Akhtar 281 28 0 22 May 2024
HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models Gabriel H. Sarch Sahil Somani Raghav Kapoor Michael J. Tarr Katerina Fragkiadaki LM&Ro LLMAG 234 6 0 29 Apr 2024
A review of deep learning-based information fusion techniques for multimodal medical image classification Yi-Hsuan Li Mostafa EL HABIB DAHO Pierre-Henri Conze Rachid Zeghlache Hugo Le Boité R. Tadayoni B. Cochener M. Lamard G. Quellec 136 104 0 23 Apr 2024
Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following Suyeon Shin Sujin Jeon Junghyun Kim Gi-Cheon Kang Byoung-Tak Zhang LLMAG 217 1 0 21 Apr 2024
Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language NavigationComputer Vision and Pattern Recognition (CVPR), 2024 Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Junjie Hu Ming Jiang Shuqiang Jiang 188 45 0 02 Apr 2024
Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation Bowen Huang Yanwei Zheng Chuanlin Lan Xinpeng Zhao Yifei Zou Dongxiao Yu 263 0 0 23 Mar 2024
Volumetric Environment Representation for Vision-Language Navigation Rui Liu Wenguan Wang Yi Yang 214 54 0 21 Mar 2024
Hierarchical Spatial Proximity Reasoning for Vision-and-Language NavigationIEEE Robotics and Automation Letters (RA-L), 2024 Ming Xu Zilong Xie 263 3 0 18 Mar 2024
Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning Rao Fu Jingyu Liu Xilun Chen Yixin Nie Wenhan Xiong LM&Ro LRM 205 134 0 18 Mar 2024
Online Continual Learning For Interactive Instruction Following AgentsInternational Conference on Learning Representations (ICLR), 2024 Byeonghwi Kim Minhyuk Seo Jonghyun Choi CLL LM&Ro 268 20 0 12 Mar 2024
OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following Haochen Shi Zhiyuan Sun Xingdi Yuan Marc-Alexandre Côté Bang Liu LLMAG 186 17 0 05 Mar 2024
MemoNav: Working Memory Model for Visual Navigation Hongxin Li Zeyu Wang Xueke Yang Yu-Ren Yang Shuqi Mei Zhaoxiang Zhang 315 9 0 29 Feb 2024
Language-guided Skill Learning with Temporal Variational Inference Haotian Fu Pratyusha Sharma Elias Stengel-Eskin George Konidaris Nicolas Le Roux Marc-Alexandre Côté Xingdi Yuan 207 10 0 26 Feb 2024
Learning Communication Policies for Different Follower Behaviors in a Collaborative Reference Game P. Sadler Sherzod Hakimov David Schlangen 208 1 0 07 Feb 2024
Multi-Object Navigation in real environments using hybrid policiesIEEE International Conference on Robotics and Automation (ICRA), 2023 Assem Sadek G. Bono Boris Chidlovskii A. Baskurt Christian Wolf 294 9 0 24 Jan 2024
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices Xiangxiang Chu Limeng Qiao Xinyang Lin Shuang Xu Yang Yang ... Fei Wei Xinyu Zhang Bo Zhang Xiaolin Wei Chunhua Shen MLLM 256 67 0 28 Dec 2023
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning Guanxing Lu Ziwei Wang Changliu Liu Jiwen Lu Yansong Tang LRM 180 17 0 12 Dec 2023
Planning as In-Painting: A Diffusion-Based Embodied Task Planning Framework for Environments under Uncertainty Cheng-Fu Yang Haoyang Xu Te-Lin Wu Xiaofeng Gao Kai-Wei Chang Feng Gao DiffM 164 11 0 02 Dec 2023
RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks Yaran Chen Wenbo Cui Yuanwen Chen Mining Tan Xinyao Zhang Dong Zhao He Wang LM&Ro LLMAG 178 0 0 27 Nov 2023
Interaction is all You Need? A Study of Robots Ability to Understand and Execute Kushal Koshti Nidhir Bhavsar 192 1 0 13 Nov 2023
DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training Kanta Kaneda Ryosuke Korekata Yuiga Wada Shunya Nagashima Motonari Kambara Yui Iioka Haruka Matsuo Yuto Imai T. Nishimura K. Sugiura 138 0 0 12 Nov 2023
Multitask Multimodal Prompted Training for Interactive Embodied Task CompletionConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Georgios Pantazopoulos Malvina Nikandrou Amit Parekh Bhathiya Hemanthage Arash Eshghi Ioannis Konstas Verena Rieser Oliver Lemon Alessandro Suglia LM&Ro 156 10 0 07 Nov 2023
Emergence of Abstract State Representations in Embodied Sequence ModelingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Tian Yun Zilai Zeng Kunal Handa Ashish V. Thapliyal Bo Pang Ellie Pavlick Chen Sun LM&Ro 152 9 0 03 Nov 2023
tagE: Enabling an Embodied Agent to Understand Human InstructionsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Chayan Sarkar Avik Mitra Pradip Pramanick Tapas Nayak LM&Ro 148 2 0 24 Oct 2023
Open-Ended Instructable Embodied Agents with Memory-Augmented Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Gabriel H. Sarch Yue Wu Michael J. Tarr Katerina Fragkiadaki LM&Ro LLMAG 315 35 0 23 Oct 2023
LACMA: Language-Aligning Contrastive Learning with Meta-Actions for Embodied Instruction FollowingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Cheng Yang Yen-Chun Chen Jianwei Yang Xiyang Dai Lu Yuan Yu Wang Kai-Wei Chang LM&Ro 156 12 0 18 Oct 2023
Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance Jesse Zhang Jiahui Zhang Karl Pertsch Ziyi Liu Xiang Ren Minsuk Chang Shao-Hua Sun Joseph J Lim LLMAG LM&Ro 410 83 0 16 Oct 2023
LangNav: Language as a Perceptual Representation for Navigation Bowen Pan Yikang Shen SouYoung Jin Rogerio Feris Aude Oliva Phillip Isola Yoon Kim LM&Ro 240 36 0 11 Oct 2023