LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

21 September 2023

Papers citing "LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent"

28 / 78 papers shown

Title
Semantic Map-based Generation of Navigation Instructions Chengzu Li Chao Zhang Simone Teufel R. Doddipatla Svetlana Stoyanchev 24 1 0 28 Mar 2024
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding Ahmad A Mahmood Ashmal Vayani Muzammal Naseer Salman Khan Fahad Shahbaz Khan LRM 47 7 0 21 Mar 2024
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents Yuqi Zhu Shuofei Qiao Yixin Ou Shumin Deng N. Zhang Shiwei Lyu Yue Shen Lei Liang Jinjie Gu H. Chen LLMAG LM&Ro 62 25 0 05 Mar 2024
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning Shuo Yang Zirui Shang Yongqi Wang Derong Deng Hongwei Chen Qiyuan Cheng Xinxiao Wu VLM 29 5 0 02 Mar 2024
RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation Hanxiao Jiang Binghao Huang Ruihai Wu Zhuoran Li Shubham Garg H. Nayyeri Shenlong Wang Yunzhu Li 24 17 0 23 Feb 2024
MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World Yining Hong Zishuo Zheng Peihao Chen Yian Wang Junyan Li Chuang Gan 8 31 0 16 Jan 2024
AffordanceLLM: Grounding Affordance from Vision Language Models Shengyi Qian Weifeng Chen Min Bai Xiong Zhou Zhuowen Tu Li Erran Li 8 20 0 12 Jan 2024
3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding Zeju Li Chao Zhang Xiaoyan Wang Ruilong Ren Yifan Xu Ruifei Ma Xiangde Liu MLLM 11 20 0 06 Jan 2024
On the Prospects of Incorporating Large Language Models (LLMs) in Automated Planning and Scheduling (APS) Vishal Pallagani Kaushik Roy Bharath Muppasani F. Fabiano Andrea Loreggia K. Murugesan Biplav Srivastava F. Rossi L. Horesh Amit P. Sheth 18 35 0 04 Jan 2024
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 47 4 0 15 Dec 2023
Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers Haifeng Huang Zehan Wang Rongjie Huang Luping Liu Xize Cheng Yang Zhao Tao Jin Zhou Zhao 47 40 0 13 Dec 2023
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding Jin-Chuan Shi Miao Wang Hao-Bin Duan Shao-Hua Guan 3DGS 16 83 0 30 Nov 2023
LRM: Large Reconstruction Model for Single Image to 3D Yicong Hong Kai Zhang Jiuxiang Gu Sai Bi Yang Zhou Difan Liu Feng Liu Kalyan Sunkavalli Trung Bui Hao Tan 3DV 3DH 17 166 0 08 Nov 2023
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 44 9 0 01 Nov 2023
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents Yash Shukla Wenchang Gao Vasanth Sarathy Alvaro Velasquez Robert Wright Jivko Sinapov 11 9 0 14 Oct 2023
Think, Act, and Ask: Open-World Interactive Personalized Robot Navigation Yinpei Dai Run Peng Sikai Li Joyce Chai LM&Ro 21 23 0 12 Oct 2023
ROSGPT_Vision: Commanding Robots Using Only Language Models' Prompts Bilel Benjdira Anis Koubaa Anas M. Ali LM&Ro 14 3 0 22 Aug 2023
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding Jiaming Chen Weihua Luo Ran Song Xiaolin K. Wei Lin Ma Wei Emma Zhang 3DV 35 6 0 22 Oct 2022
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 140 337 0 11 Oct 2022
CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory Nur Muhammad (Mahi) Shafiullah Chris Paxton Lerrel Pinto Soumith Chintala Arthur Szlam VLM LM&Ro CLIP 87 155 0 11 Oct 2022
Feature-Realistic Neural Fusion for Real-Time, Open Set Scene Understanding Kirill Mazur Edgar Sucar Andrew J. Davison 3DPC AI4CE 74 44 0 06 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Open-vocabulary Queryable Scene Representations for Real World Planning Boyuan Chen F. Xia Brian Ichter Kanishka Rao K. Gopalakrishnan Michael S. Ryoo Austin Stone Daniel Kappler LM&Ro 138 179 0 20 Sep 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 136 430 0 10 Jul 2022
Decomposing NeRF for Editing via Feature Field Distillation Sosuke Kobayashi Eiichi Matsumoto Vincent Sitzmann 156 326 0 31 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 59 128 0 01 Mar 2021