MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

19 September 2025

Zhengdong Zhang

ArXiv (abs)PDF HTML HuggingFace (48 upvotes)Github (1236★)

Papers citing "MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer"

1 / 1 papers shown

Title
BLIP3o-NEXT: Next Frontier of Native Image Generation Jiuhai Chen Le Xue Zhiyang Xu Xichen Pan Shusheng Yang ... Tianyi Zhou Junnan Li Silvio Savarese Caiming Xiong Ran Xu 52 1 0 17 Oct 2025