MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation
Models on Embodied Task Planning

MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning

6 July 2024

Hao Zhang

Papers citing "MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning"

4 / 4 papers shown

Title
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model An-Chieh Cheng Hongxu Yin Yang Fu Qiushan Guo Ruihan Yang Jan Kautz Xiaolong Wang Sifei Liu LRM 48 43 0 03 Jun 2024
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning Yingdong Hu Fanqi Lin Tong Zhang Li Yi Yang Gao LM&Ro 80 101 0 29 Nov 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 247 4,186 0 30 Jan 2023
BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments S. Srivastava Chengshu Li Michael Lingelbach Roberto Martín-Martín Fei Xia ... C. Karen Liu Silvio Savarese H. Gweon Jiajun Wu Li Fei-Fei LM&Ro 135 152 0 06 Aug 2021