UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces

8 March 2025

Papers citing "UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces"

1 / 1 papers shown

Title
GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation Haotian Xu Yue Hu Chen Gao Zhengqiu Zhu Yong Zhao Y. Li Quanjun Yin 29 0 0 13 Apr 2025