A Picture is Worth a Thousand Words: Language Models Plan from Pixels

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

16 March 2023

ArXiv (abs)PDF HTML Github

Papers citing "A Picture is Worth a Thousand Words: Language Models Plan from Pixels"

5 / 5 papers shown

ViMo: A Generative Visual GUI World Model for App Agents

628

15 Apr 2025

Correctable Landmark Discovery via Large Models for Vision-Language Navigation

Hang Xu

Xiaodan Liang

392

29 May 2024

Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

Jingyu Liu

314

168

18 Mar 2024

De-Diffusion Makes Text a Strong Cross-Modal InterfaceComputer Vision and Pattern Recognition (CVPR), 2023

Siyuan Qiao

331

01 Nov 2023

Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic TaskNeural Information Processing Systems (NeurIPS), 2023

660

13 Oct 2023