Vector Quantized Diffusion Model for Text-to-Image Synthesis

29 November 2021

Jianmin Bao

Lu Yuan

Papers citing "Vector Quantized Diffusion Model for Text-to-Image Synthesis"

50 / 563 papers shown

Title
Mixed Diffusion for 3D Indoor Scene Synthesis Siyi Hu Diego Martin Arroyo Stephanie Debats Fabian Manhardt Luca Carlone Federico Tombari DiffM 30 3 0 31 May 2024
Trajectory Forecasting through Low-Rank Adaptation of Discrete Latent Codes Riccardo Benaglia Angelo Porrello Pietro Buzzega Simone Calderara Rita Cucchiara 18 0 0 31 May 2024
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention Lianghui Zhu Zilong Huang Bencheng Liao Jun Hao Liew Hanshu Yan Jiashi Feng Xinggang Wang 68 12 0 28 May 2024
Text Modality Oriented Image Feature Extraction for Detecting Diffusion-based DeepFake Di Yang Yihao Huang Qing-Wu Guo Felix Juefei Xu Xiaojun Jia Run Wang G. Pu Yang Liu DiffM 27 0 0 28 May 2024
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization Junjie Shentu Matthew Watson Noura Al Moubayed DiffM 47 0 0 28 May 2024
Training-free Editioning of Text-to-Image Models Jinqi Wang Yunfei Fu Zhangcan Ding Bailin Deng Yu-Kun Lai Yipeng Qin DiffM VLM 34 0 0 27 May 2024
$$\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation$ $\text{Di}^2\text{Pose}$ : Discrete Diffusion Model for Occluded 3D Human Pose Estimation Weiquan Wang Jun Xiao Chunping Wang Wei Liu Zhao Wang Long Chen DiffM 34 1 0 27 May 2024
Glauber Generative Model: Discrete Diffusion Models via Binary Classification Harshit Varma Dheeraj M. Nagaraj Karthikeyan Shanmugam VLM 62 2 0 27 May 2024
Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion Zizhao Hu Mohammad Rostami 27 0 0 25 May 2024
Learning to Discretize Denoising Diffusion ODEs Vinh Tong Anji Liu Trung-Dung Hoang Guy Van den Broeck Mathias Niepert DiffM 30 4 0 24 May 2024
SoundLoCD: An Efficient Conditional Discrete Contrastive Latent Diffusion Model for Text-to-Sound Generation Xinlei Niu Jing Zhang Christian J. Walder Charles Patrick Martin 19 2 0 24 May 2024
Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion Aoxue Li Mingyang Yi Zhenguo Li DiffM 43 0 0 24 May 2024
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation Shiqi Yang Zhi-Wei Zhong Mengjie Zhao Shusuke Takahashi Masato Ishii Takashi Shibuya Yuki Mitsufuji 43 2 0 23 May 2024
How to Trace Latent Generative Model Generated Images without Artificial Watermark? Zhenting Wang Vikash Sehwag Chen Chen Lingjuan Lyu Dimitris N. Metaxas Shiqing Ma WIGM 36 5 0 22 May 2024
Curriculum Direct Preference Optimization for Diffusion and Consistency Models Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu N. Sebe Mubarak Shah EGVM 84 5 0 22 May 2024
Beyond Traditional Single Object Tracking: A Survey Omar Abdelaziz Mohamed Shehata Mohamed Mohamed 33 0 0 16 May 2024
VisioBlend: Sketch and Stroke-Guided Denoising Diffusion Probabilistic Model for Realistic Image Generation Harshkumar Devmurari Gautham Kuckian Prajjwal Vishwakarma Krunali Vartak DiffM 20 0 0 15 May 2024
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation Shengyuan Liu Bo Wang Ye Ma Te Yang Xipeng Cao Quan Chen Han Li Di Dong Peng Jiang EGVM 31 2 0 11 May 2024
FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation Xuehai He Jian Zheng Jacob Zhiyuan Fang Robinson Piramuthu Mohit Bansal Vicente Ordonez Gunnar A. Sigurdsson Nanyun Peng Xin Eric Wang DiffM 43 1 0 08 May 2024
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond Zheng Zhu Xiaofeng Wang Wangbo Zhao Chen Min Nianchen Deng ... Dawei Zhao Liang Xiao Jian-jun Zhao Jiwen Lu Guan Huang VGen LM&Ro 79 35 0 06 May 2024
A Survey on Diffusion Models for Time Series and Spatio-Temporal Data Yiyuan Yang Ming Jin Haomin Wen Chaoli Zhang Yuxuan Liang ... Bin Yang Zenglin Xu Jiang Bian Shirui Pan Qingsong Wen DiffM AI4TS SyDa 29 36 0 29 Apr 2024
MuseumMaker: Continual Style Customization without Catastrophic Forgetting Chenxi Liu Gan Sun Wenqi Liang Jiahua Dong Can Qin Yang Cong DiffM 48 3 0 25 Apr 2024
DeepFeatureX Net: Deep Features eXtractors based Network for discriminating synthetic from real images Orazio Pontorno Luca Guarnera S. Battiato 19 3 0 24 Apr 2024
HybridVC: Efficient Voice Style Conversion with Text and Audio Prompts Xinlei Niu Jing Zhang Charles Patrick Martin 18 2 0 24 Apr 2024
Sketch-guided Image Inpainting with Partial Discrete Diffusion Process Nakul Sharma Aditay Tripathi Anirban Chakraborty Anand Mishra DiffM 16 3 0 18 Apr 2024
A Data-Driven Representation for Sign Language Production Harry Walsh Abolfazl Ravanshad Mariam Rahmani Richard Bowden SLR 14 3 0 17 Apr 2024
HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing Mude Hui Siwei Yang Bingchen Zhao Yichun Shi Heng Wang Peng Wang Yuyin Zhou Cihang Xie 27 54 0 15 Apr 2024
in2IN: Leveraging individual Information to Generate Human INteractions Pablo Ruiz-Ponce Germán Barquero Cristina Palmero Sergio Escalera Jose J. García Rodríguez VGen DiffM 38 6 0 15 Apr 2024
E3: Ensemble of Expert Embedders for Adapting Synthetic Image Detectors to New Generators Using Limited Data Aref Azizpour Tai D. Nguyen Manil Shrestha Kaidi Xu Edward Kim Matthew C. Stamm 29 4 0 12 Apr 2024
Latent Guard: a Safety Framework for Text-to-image Generation Runtao Liu Ashkan Khakzar Jindong Gu Qifeng Chen Philip H. S. Torr Fabio Pizzati 21 23 0 11 Apr 2024
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization Minshuo Chen Song Mei Jianqing Fan Mengdi Wang VLM MedIm DiffM 32 48 0 11 Apr 2024
StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion Ming Tao Bing-Kun Bao Hao Tang Yaowei Wang Changsheng Xu DiffM 39 5 0 09 Apr 2024
Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models Saman Motamed Wouter Van Gansbeke Luc Van Gool VGen DiffM 30 1 0 08 Apr 2024
Mixture of Low-rank Experts for Transferable AI-Generated Image Detection Zihan Liu Hanyi Wang Yaoyu Kang Shilin Wang MoE 36 12 0 07 Apr 2024
Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving Jinlong Li Baolu Li Zhengzhong Tu Xinyu Liu Qing-Wu Guo Felix Juefei Xu Runsheng Xu Hongkai Yu DiffM 45 18 0 07 Apr 2024
Which Model Generated This Image? A Model-Agnostic Approach for Origin Attribution Fengyuan Liu Haochen Luo Yiming Li Philip H. S. Torr Jindong Gu VLM 26 5 0 03 Apr 2024
A Unified and Interpretable Emotion Representation and Expression Generation Reni Paskaleva Mykyta Holubakha Andela Ilic Saman Motamed Luc Van Gool D. Paudel 25 2 0 01 Apr 2024
Transformer based Pluralistic Image Completion with Reduced Information Loss Qiankun Liu Yuqi Jiang Zhentao Tan Dongdong Chen Ying Fu Qi Chu Gang Hua Nenghai Yu ViT 58 11 0 31 Mar 2024
Relation Rectification in Diffusion Model Yinwei Wu Xingyi Yang Xinchao Wang 28 6 0 29 Mar 2024
Attention Calibration for Disentangled Text-to-Image Personalization Yanbing Zhang Mengping Yang Qin Zhou Zhe Wang 22 15 0 27 Mar 2024
LayoutFlow: Flow Matching for Layout Generation Julian Jorge Andrade Guerreiro Naoto Inoue Kento Masui Mayu Otani Hideki Nakayama DiffM 28 7 0 27 Mar 2024
Fake or JPEG? Revealing Common Biases in Generated Image Detection Datasets Patrick Grommelt Louis Weiss Franz-Josef Pfreundt J. Keuper 24 17 0 26 Mar 2024
Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation Sanyam Lakhanpal Shivang Chopra Vinija Jain Aman Chadha Man Luo 27 9 0 25 Mar 2024
CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model S. Han Joohee Kim DiffM CLIP 32 1 0 22 Mar 2024
DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing Yueru Jia Yuhui Yuan Aosong Cheng Chuke Wang Ji Li Huizhu Jia Shanghang Zhang DiffM 31 7 0 21 Mar 2024
Open Knowledge Base Canonicalization with Multi-task Learning Bingchen Liu Huang Peng Weixin Zeng Xiang Zhao Shijun Liu Li Pan 11 0 0 21 Mar 2024
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua DiffM 29 7 0 18 Mar 2024
LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model Runhu Huang Kaixin Cai Jianhua Han Xiaodan Liang Renjing Pei Guansong Lu Songcen Xu Wei Zhang Hang Xu DiffM 20 3 0 18 Mar 2024
LogicalDefender: Discovering, Extracting, and Utilizing Common-Sense Knowledge Yuhe Liu Mengxue Kang Zengchang Qin Xiangxiang Chu NAI VLM 33 0 0 18 Mar 2024
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space Nabarun Goswami Yusuke Mukuta Tatsuya Harada 35 3 0 18 Mar 2024