Are Diffusion Models Vision-And-Language Reasoners?

Are Diffusion Models Vision-And-Language Reasoners?

25 May 2023

Elinor Poole-Dayan

Vikram S. Voleti

Christopher Pal

Siva Reddy

Papers citing "Are Diffusion Models Vision-And-Language Reasoners?"

12 / 12 papers shown

Title
Conditional Diffusion Models are Medical Image Classifiers that Provide Explainability and Uncertainty for Free Gian Mario Favero Parham Saremi Emily Kaczmarek Brennan Nichyporuk Tal Arbel DiffM MedIm 62 0 0 06 Feb 2025
Spider: Any-to-Many Multimodal LLM Jinxiang Lai Jie Zhang Jun Liu Jian Li Xiaocheng Lu Song Guo MLLM 52 2 0 14 Nov 2024
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations Benno Krojer Dheeraj Vattikonda Luis Lara Varun Jampani Eva Portelance Christopher Pal Siva Reddy EGVM VGen 40 3 0 03 Jul 2024
Information Theoretic Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Massimo Gallo Pietro Michiardi 53 0 0 31 May 2024
Discriminative Probing and Tuning for Text-to-Image Generation Leigang Qu Wenjie Wang Yongqi Li Hanwang Zhang Liqiang Nie Tat-Seng Chua 31 7 0 07 Mar 2024
SODA: Bottleneck Diffusion Models for Representation Learning Drew A. Hudson Daniel Zoran Mateusz Malinowski Andrew Kyle Lampinen Andrew Jaegle James L. McClelland Loic Matthey Felix Hill Alexander Lerchner DiffM 9 45 0 29 Nov 2023
Interpretable Diffusion via Information Decomposition Xianghao Kong Ollie Liu Han Li Dani Yogatama Greg Ver Steeg 16 18 0 12 Oct 2023
On the Design Fundamentals of Diffusion Models: A Survey Ziyi Chang G. Koulieris Hubert P. H. Shum DiffM 27 50 0 07 Jun 2023
MultiModal Bias: Introducing a Framework for Stereotypical Bias Assessment beyond Gender and Race in Vision Language Models Sepehr Janghorbani Gerard de Melo VLM 34 10 0 16 Mar 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 515 0 02 Jan 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018