Papers citing "An Introduction to Vision-Language Modeling"

6 / 56 papers shown

Title
General Vision Encoder Features as Guidance in Medical Image Registration Fryderyk Kogl Anna Reithmeir Vasiliki Sideri-Lampretsa Ines P. Machado R. Braren Daniel Rückert Julia A. Schnabel Veronika A. Zimmer MedIm 73 2 0 18 Jul 2024
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data William Berman A. Peysakhovich 91 4 0 26 Jun 2024
Generative AI Systems: A Systems-based Perspective on Generative AI Jakub M. Tomczak 95 1 0 25 Jun 2024
Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report Franz Louis Cesista VGen 133 6 0 17 Jun 2024
What is the Visual Cognition Gap between Humans and Multimodal LLMs? Xu Cao Bolin Lai Wenqian Ye Yunsheng Ma Joerg Heintz Jintai Chen Jianguo Cao James M. Rehg 104 11 0 14 Jun 2024
The Vector Grounding Problem Dimitri Coelho Mollo Raphael Milliere 146 28 0 04 Apr 2023