$VILA^2$: VILA Augmented VILA

$VILA^2$ : VILA Augmented VILA

24 July 2024

Pavlo Molchanov

Song Han

ArXiv (abs)PDF HTML HuggingFace (42 upvotes)

Papers citing "$VILA^2$: VILA Augmented VILA"

5 / 5 papers shown

Title
Scaling Vision Pre-Training to 4K ResolutionComputer Vision and Pattern Recognition (CVPR), 2025 Baifeng Shi Boyi Li Han Cai Yaojie Lu Sifei Liu ... Jan Kautz Enze Xie Trevor Darrell Pavlo Molchanov Hongxu Yin CLIP 865 12 0 25 Mar 2025
Diving into Self-Evolving Training for Multimodal Reasoning Wei Liu Junlong Li Xiwen Zhang Fan Zhou Yu Cheng Junxian He LRM ReLM 328 26 0 23 Dec 2024
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024 Byung-Kwan Lee Ryo Hachiuma Yu-Chiang Frank Wang Y. Ro Yueh-Hua Wu VLM 365 4 0 02 Dec 2024
VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web TasksInternational Conference on Learning Representations (ICLR), 2024 Lawrence Jang Yinheng Li Charles Ding Justin Lin Paul Pu Liang Dan Zhao Rogerio Bonatti K. Koishida 360 22 0 24 Oct 2024
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models Bingchen Liu Ehsan Akhgari Alexander Visheratin Aleks Kamko Linmiao Xu Shivam Shrirao Joao Souza Suhail Doshi Daiqing Li Daiqing Li DiffM MLLM 358 86 0 16 Sep 2024