See and Think: Embodied Agent in Virtual Environment

26 November 2023

Papers citing "See and Think: Embodied Agent in Virtual Environment"

29 / 29 papers shown

Title
Security of Internet of Agents: Attacks and Countermeasures Yuntao Wang Yanghe Pan Shaolong Guo Zhou Su LLMAG 25 0 0 12 May 2025
Internet of Agents: Fundamentals, Applications, and Challenges Yuntao Wang Shaolong Guo Yanghe Pan Zhou Su Fahao Chen Tom H. Luan Peng Li Jiawen Kang Dusit Niyato LLMAG LM&Ro AI4CE 50 0 0 12 May 2025
TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action Jen-Hao Cheng Vivian Wang Huayu Wang Huapeng Zhou Yi-Hao Peng ... Wenhao Chai Yi-Ling Chen Vibhav Vineet Qin Cai Jenq-Neng Hwang AI4TS 64 0 0 02 May 2025
Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability Zishen Wan Jiayi Qian Yuhang Du Jason J. Jabbour Yilun Du Yang Katie Zhao A. Raychowdhury Tushar Krishna Vijay Janapa Reddi LM&Ro 86 0 0 26 Apr 2025
JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration Yunlong Lin Zixu Lin Haoyu Chen Panwang Pan C. Li Sixiang Chen Yeying Jin W. J. Li Xinghao Ding 25 1 0 05 Apr 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks W. Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Y. Zhuang LM&Ro LRM 65 2 0 27 Mar 2025
Uncertainty in Action: Confidence Elicitation in Embodied Agents Tianjiao Yu Vedant Shah Muntasir Wahed Kiet A. Nguyen Adheesh Sunil Juvekar Tal August Ismini Lourentzou 40 0 0 13 Mar 2025
A Survey of Large Language Model Empowered Agents for Recommendation and Search: Towards Next-Generation Information Retrieval Yu Zhang Shutong Qiao Jiaqi Zhang Tzu-Heng Lin Chen Gao Y. Li LM&Ro LM&MA 87 1 0 07 Mar 2025
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models Ruizhe Chen Wenhao Chai Zhifei Yang Xiaotian Zhang Joey Tianyi Zhou Tony Q. S. Quek Soujanya Poria Zuozhu Liu 48 0 0 06 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 86 11 0 06 Jan 2025
OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning Xiaoqiang Wang Bang Liu LLMAG LM&Ro LRM 31 6 0 24 Oct 2024
LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound Xuechen Guo Wenhao Chai Shi-Yan Li Gaoang Wang 31 6 0 19 Oct 2024
Ego3DT: Tracking Every 3D Object in Ego-centric Videos Shengyu Hao Wenhao Chai Zhonghan Zhao Meiqi Sun Wendi Hu ... Yixian Zhao Qi Li Yizhou Wang Xi Li Gaoang Wang 29 1 0 11 Oct 2024
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark Wenhao Chai Enxin Song Y. Du Chenlin Meng Vashisht Madhavan Omer Bar-Tal Jeng-Neng Hwang Saining Xie Christopher D. Manning 3DV 77 25 0 04 Oct 2024
Optimization Proxies using Limited Labeled Data and Training Time -- A Semi-Supervised Bayesian Neural Network Approach Parikshit Pareek K. Sundar Deepjyoti Deka Sidhant Misra Sidhant Misra 27 0 0 04 Oct 2024
STEVE Series: Step-by-Step Construction of Agent Systems in Minecraft Zhonghan Zhao Wenhao Chai Xuan Wang Ke Ma Kewei Chen Dongxu Guo Tian Ye Yanting Zhang Hongwei Wang Gaoang Wang LLMAG LM&Ro 20 6 0 17 Jun 2024
CityCraft: A Real Crafter for 3D City Generation Jie Deng Wenhao Chai Junsheng Huang Zhonghan Zhao Qixuan Huang ... Shengyu Hao Wenhao Hu Jenq-Neng Hwang X. Li Gaoang Wang 34 12 0 07 Jun 2024
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence Zhuoling Li Xiaogang Xu Zhenhua Xu Sernam Lim Hengshuang Zhao LM&Ro 37 2 0 27 May 2024
MovieChat+: Question-aware Sparse Memory for Long Video Question Answering Enxin Song Wenhao Chai Tianbo Ye Jenq-Neng Hwang Xi Li Gaoang Wang VLM MLLM 24 28 0 26 Apr 2024
Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model Zhonghan Zhao Ke Ma Wenhao Chai Xuan Wang Kewei Chen Dongxu Guo Yanting Zhang Hongwei Wang Gaoang Wang 32 14 0 06 Apr 2024
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents Abhaysinh Zala Jaemin Cho Han Lin Jaehong Yoon Mohit Bansal 26 13 0 18 Mar 2024
Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation Zhonghan Zhao Kewei Chen Dongxu Guo Wenhao Chai Tianbo Ye Yanting Zhang Gaoang Wang 53 20 0 13 Mar 2024
Large Multimodal Agents: A Survey Junlin Xie Zhihong Chen Ruifei Zhang Xiang Wan Guanbin Li LM&Ro LLMAG 37 38 0 23 Feb 2024
S-Agents: Self-organizing Agents in Open-ended Environments Jia-Qing Chen Yu-Gang Jiang Jiachen Lu Li Zhang AIFin LLMAG LM&Ro 45 15 0 07 Feb 2024
CityGen: Infinite and Controllable City Layout Generation Jie Deng Wenhao Chai Jianshu Guo Qixuan Huang Wenhao Hu Jenq-Neng Hwang Gaoang Wang Jenq-Neng Hwang Gaoang Wang 64 19 0 03 Dec 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 206 899 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 256 4,223 0 30 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,110 0 28 Jan 2022