Title
3D Audio-Visual Segmentation Artem Sokolov Swapnil Bhosale Xiatian Zhu VOS 206 3 0 04 Nov 2024
DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware DiffusionNeural Information Processing Systems (NeurIPS), 2024 Weicai Ye Chenhao Ji Zheng Chen Junyao Gao Xiaoshui Huang Song-Hai Zhang Wanli Ouyang Tong He Cairong Zhao Guofeng Zhang 218 27 0 31 Oct 2024
Exploring the Reliability of Foundation Model-Based Frontier Selection in Zero-Shot Object Goal NavigationInternational Conference on Pattern Recognition (ICPR), 2024 Shuaihang Yuan Halil Utku Unlu Niraj Pudasaini Congcong Wen Anthony Tzes Yi Fang 159 3 0 28 Oct 2024
Efficient Diversity-based Experience Replay for Deep Reinforcement LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2024 Kaiyan Zhao Yiming Wang Yuyang Chen Yan Li Leong Hou U Xiaoguang Niu 388 4 0 27 Oct 2024
EfficientEQA: An Efficient Approach to Open-Vocabulary Embodied Question Answering Kai Cheng Zhengyuan Li Xingpeng Sun Byung-Cheol Min Amrit Singh Bedi Aniket Bera 148 9 0 26 Oct 2024
Learning autonomous driving from aerial imageryIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024 Varun Murali Guy Rosman S. Karaman Daniela Rus SSL 146 2 0 18 Oct 2024
Imagine2Servo: Intelligent Visual Servoing with Diffusion-Driven Goal Generation for Robotic TasksIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024 Pranjali Pathre Gunjan Gupta M. N. Qureshi Mandyam Brunda Samarth Brahmbhatt K. M. Krishna VGen 139 2 0 16 Oct 2024
ImagineNav: Prompting Vision-Language Models as Embodied Navigator through Scene ImaginationInternational Conference on Learning Representations (ICLR), 2024 Xinxin Zhao Wenzhe Cai Likun Tang Teng Wang LM&Ro 174 19 0 13 Oct 2024
LocoVR: Multiuser Indoor Locomotion Dataset in Virtual RealityInternational Conference on Learning Representations (ICLR), 2024 Kojiro Takeyama Yimeng Liu Misha Sra 147 1 0 09 Oct 2024
DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes Zhaowei Wang Hongming Zhang Tianqing Fang Ye Tian Yue Yang Kaixin Ma Xiaoman Pan Yangqiu Song Dong Yu LM&Ro 323 4 0 03 Oct 2024
Gaussian-Det: Learning Closed-Surface Gaussians for 3D Object DetectionInternational Conference on Learning Representations (ICLR), 2024 Hongru Yan Yu Zheng Yueqi Duan 3DGS 293 6 0 02 Oct 2024
Find Everything: A General Vision Language Model Approach to Multi-Object Search Daniel Choi Angus Fung Haitong Wang Aaron Hao Tan 402 6 0 01 Oct 2024
MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge DistillationIEEE International Conference on Robotics and Automation (ICRA), 2024 Junyou Zhu Yanyuan Qiao Siqi Zhang Xingjian He Qi Wu Jing Liu VLM 306 4 0 27 Sep 2024
DeBaRA: Denoising-Based 3D Room Arrangement GenerationNeural Information Processing Systems (NeurIPS), 2024 Léopold Maillard Nicolas Sereyjol-Garros Tom Durand Maks Ovsjanikov DiffM 3DV 243 10 0 26 Sep 2024
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation Quanting Xie So Yeon Min Tianyi Zhang Kedi Xu Aarav Bajaj Ruslan Salakhutdinov Matthew Johnson-Roberson Yonatan Bisk Matthew Johnson-Roberson Yonatan Bisk LM&Ro 413 27 0 26 Sep 2024
From Cognition to Precognition: A Future-Aware Framework for Social NavigationIEEE International Conference on Robotics and Automation (ICRA), 2024 Zeying Gong Tianshuai Hu Ronghe Qiu Junwei Liang 758 8 0 20 Sep 2024
Navigation with VLM framework: Towards Going to Any Language Zecheng Yin Chonghao Cheng Lizhen Zhen Li LM&Ro 353 3 0 18 Sep 2024
One Map to Find Them All: Real-time Open-Vocabulary Mapping for Zero-shot Multi-Object NavigationIEEE International Conference on Robotics and Automation (ICRA), 2024 F. L. Busch Timon Homberger Jesús Ortega-Peimbert Quantao Yang Olov Andersson 240 9 0 18 Sep 2024
Towards Physically Realizable Adversarial Attacks in Embodied Vision Navigation Meng Chen Jiawei Tu Chao Qi Yonghao Dang F. Zhou Wei Wei Jianqin Yin AAML 440 6 0 16 Sep 2024
Introducing a Class-Aware Metric for Monocular Depth Estimation: An Automotive Perspective Tim Bader Leon Eisemann Adrian Pogorzelski Namrata Jangid Attila B. Kis 276 0 0 06 Sep 2024
Boosting Generalizability towards Zero-Shot Cross-Dataset Single-Image Indoor Depth by Meta-InitializationIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024 Cho-Ying Wu Yiqi Zhong Junying Wang Ulrich Neumann MDE 326 0 0 04 Sep 2024
Multi-modal Situated Reasoning in 3D ScenesNeural Information Processing Systems (NeurIPS), 2024 Xiongkun Linghu Jiangyong Huang Xuesong Niu Xiaojian Ma Baoxiong Jia Siyuan Huang 293 38 0 04 Sep 2024
SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting Wenrui Li Yapeng Mi Fucheng Cai Zhe Yang Wangmeng Zuo Xingtao Wang Xiaopeng Fan 3DGS 247 18 0 25 Aug 2024
InSpaceType: Dataset and Benchmark for Reconsidering Cross-Space Type Performance in Indoor Monocular DepthBritish Machine Vision Conference (BMVC), 2024 Cho-Ying Wu Quankai Gao Chin-Cheng Hsu Te-Lin Wu Jing-Wen Chen Ulrich Neumann MDE 283 0 0 25 Aug 2024
All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents Zhiqiang Wang Hao Zheng Yunshuang Nie Wenjun Xu Qingwei Wang ... Wanxi Dong Chang Cai Liang Lin Feng Zheng Xiaodan Liang 171 12 0 20 Aug 2024
DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions Ryosuke Korekata Kanta Kaneda Shunya Nagashima Yuto Imai Komei Sugiura ObjD LM&Ro 185 2 0 15 Aug 2024
Structure-preserving Planar Simplification for Indoor Environments Bishwash Khanal Sanjay Rijal Manish Awale V. Ojha 3DPC 162 0 0 13 Aug 2024
Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation Sai Prasanna Daniel Honerkamp Kshitij Sirohi Tim Welschehold Wolfram Burgard Abhinav Valada 294 1 0 05 Aug 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 222 11 0 26 Jul 2024
Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information Luca Di Giammarino Boyang Sun Giorgio Grisetti Marc Pollefeys Hermann Blum Dániel Baráth SSL 172 2 0 22 Jul 2024
Self-training Room Layout Estimation via Geometry-aware Ray-casting Bolivar Solarte Chin-Hsuan Wu Jin-Cheng Jhang Jonathan Lee Yi-Hsuan Tsai Min Sun SSL 105 4 0 21 Jul 2024
VisFly: An Efficient and Versatile Simulator for Training Vision-based Flight Fanxing Li Fangyu Sun Tianbao Zhang Danping Zou 391 6 0 20 Jul 2024
MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References Lukas Bosiger Mihai Dusmanu Marc Pollefeys Z. Bauer 135 1 0 18 Jul 2024
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models Gengze Zhou Yicong Hong Zun Wang Xin Eric Wang Qi Wu LM&Ro 246 65 0 17 Jul 2024
FR-SLAM: A SLAM Improvement Method Based on Floor Plan Registration Jiantao Feng Xinde Li HyunCheol Park Juan Liu Zhentong Zhang 134 2 0 16 Jul 2024
Navi2Gaze: Leveraging Foundation Models for Navigation and Target Gazing Jun Zhu Zihao Du Haotian Xu Fengbo Lan Zilong Zheng Bo Ma Shengjie Wang Tao Zhang 164 5 0 12 Jul 2024
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment Jiefu Ou Arda Uzunoglu Benjamin Van Durme Daniel Khashabi LM&Ro VGen 246 3 0 10 Jul 2024
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI Zehua Wang Weixing Chen Yongjie Bai Xiaodan Liang Guanbin Li Wen Gao Liang Lin LM&Ro SyDa AI4CE 369 167 0 09 Jul 2024
Open Scene Graphs for Open World Object-Goal Navigation Joel Loo Zhanxin Wu David Hsu LM&Ro 206 12 0 02 Jul 2024
3D Feature Distillation with Object-Centric Priors Georgios Tziafas Yucheng Xu Zhibin Li Hamidreza Kasaei 281 1 0 26 Jun 2024
3D-MVP: 3D Multiview Pretraining for Robotic Manipulation Shengyi Qian Kaichun Mo Valts Blukis David Fouhey Dieter Fox Ankit Goyal 164 6 0 26 Jun 2024
MAGIC: Meta-Ability Guided Interactive Chain-of-Distillation for Effective-and-Efficient Vision-and-Language Navigation Liuyi Wang Zongtao He Mengjiao Shen Jingwei Yang Chengju Liu Qijun Chen VLM 273 3 0 25 Jun 2024
CityNav: A Large-Scale Dataset for Real-World Aerial Navigation Jungdae Lee Taiki Miyanishi Shuhei Kurita Koya Sakamoto Daichi Azuma Yutaka Matsuo Nakamasa Inoue 241 23 0 20 Jun 2024
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding Alessandro Suglia Claudio Greco Katie Baker Jose L. Part Ioannis Papaioannou Arash Eshghi Ioannis Konstas Oliver Lemon 188 15 0 19 Jun 2024
LRM-Zero: Training Large Reconstruction Models with Synthesized Data Desai Xie Sai Bi Zhixin Shu Kai Zhang Zexiang Xu Yi Zhou Soren Pirk Arie E. Kaufman Xin Sun Hao Tan SyDa 255 23 0 13 Jun 2024
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations Ruiyuan Lyu Tai Wang Jingli Lin Shuai Yang Xiaohan Mao ... Runsen Xu Haifeng Huang Chenming Zhu Dahua Lin Jiangmiao Pang 3DV 277 31 0 13 Jun 2024
InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored EnvironmentConference on Robot Learning (CoRL), 2024 Yuxing Long Wenzhe Cai Hongcheng Wang Guanqi Zhan Hao Dong 227 88 0 07 Jun 2024
Balancing Performance and Efficiency in Zero-shot Robotic Navigation Dmytro Kuzmenko N. Shvai LM&Ro 187 0 0 05 Jun 2024
CoNav: A Benchmark for Human-Centered Collaborative Navigation Changhao Li Xinyu Sun Peihao Chen Jugang Fan Zixu Wang Yanxia Liu Jinhui Zhu Chuang Gan Zhuliang Yu 223 2 0 04 Jun 2024
Transformers for Image-Goal Navigation Nikhilanj Pelluri ViT 261 2 0 23 May 2024