Pixel Aligned Language Models

Pixel Aligned Language Models

Computer Vision and Pattern Recognition (CVPR), 2023

14 December 2023

Cordelia Schmid

ArXiv (abs)PDF HTML HuggingFace (18 upvotes)

Papers citing "Pixel Aligned Language Models"

13 / 13 papers shown

Title
QUILL: An Algorithm-Architecture Co-Design for Cache-Local Deformable Attention Hyunwoo Oh Hanning Chen Sanggeon Yun Yang Ni Wenjun Huang Tamoghno Das Suyeon Jang Mohsen Imani VLM 89 0 0 17 Nov 2025
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu Ming Ma Xiaomin Yu Pengxiang Ding Han Zhao Mingyang Sun Siteng Huang Xuetao Zhang LRM 426 19 0 18 May 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksNeural Information Processing Systems (NeurIPS), 2024 Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 671 113 0 03 Jan 2025
Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision Shengcao Cao Liang-Yan Gui Yu Wang 169 5 0 10 Oct 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene UnderstandingNeural Information Processing Systems (NeurIPS), 2024 Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-Xiong Wang 444 30 0 05 Sep 2024
How Well Can Vision Language Models See Image Details? Chenhui Gou Abdulwahab Felemban Faizan Farooq Khan Deyao Zhu Jianfei Cai Hamid Rezatofighi Mohamed Elhoseiny VLM MLLM 200 12 0 07 Aug 2024
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models Ming-Kuan Wu Xinyue Cai Jiayi Ji Jiale Li Oucheng Huang Gen Luo Hao Fei Xiaoshuai Sun Rongrong Ji MLLM 291 29 0 31 Jul 2024
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less HallucinationComputer Vision and Pattern Recognition (CVPR), 2024 Jianing Yang Xuweiyi Chen Nikhil Madaan Madhavan Iyengar Shengyi Qian David Fouhey Joyce Chai 3DV 502 27 0 07 Jun 2024
BRAVE: Broadening the visual encoding of vision-language modelsEuropean Conference on Computer Vision (ECCV), 2024 Ouguzhan Fatih Kar A. Tonioni Petra Poklukar Achin Kulshrestha Amir Zamir Federico Tombari MLLM VLM 260 54 0 10 Apr 2024
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs Soroush Nasiriany Fei Xia Wenhao Yu Ted Xiao Jacky Liang ... Karol Hausman N. Heess Chelsea Finn Sergey Levine Brian Ichter LM&Ro LRM 151 172 0 12 Feb 2024
InkSight: Offline-to-Online Handwriting Conversion by Teaching Vision-Language Models to Read and Write B. Mitrevski Arina Rak Julian Schnitzler Chengkun Li Andrii Maksai Jesse Berent C. Musat DiffM 274 0 0 08 Feb 2024
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator Henry Hengyuan Zhao Pan Zhou Mike Zheng Shou MLLM SyDa 350 10 0 11 Dec 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 649 304 0 07 Jul 2023