PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

10 January 2024

Enze Xie

Ping Luo

Hang Zhao

Zhenguo Li

VLM

ArXiv PDF HTML

Papers citing "PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models"

50 / 60 papers shown

Title
Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition Zhiyuan Chen Keyi Li Yifan Jia Le Ye Yufei Ma DiffM 28 0 0 09 May 2025
Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability L. Wang Senmao Li Fei Yang Jianye Wang Ziheng Zhang Y. Liu Y. Wang Jian Yang DiffM 56 0 0 06 May 2025
Autoregressive Distillation of Diffusion Transformers Yeongmin Kim Sotiris Anagnostidis Yuming Du Edgar Schönfeld Jonas Kohler Markos Georgopoulos Albert Pumarola Ali K. Thabet A. Sanakoyeu 26 0 0 15 Apr 2025
DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Hao Luo Yibing Song Gao Huang Fan Wang Yang You 66 0 0 09 Apr 2025
Random Conditioning with Distillation for Data-Efficient Diffusion Model Compression Dohyun Kim S. Park Geonhee Han Seung Wook Kim Paul Hongsuck Seo DiffM 50 0 0 02 Apr 2025
SketchVideo: Sketch-based Video Generation and Editing Feng-Lin Liu Hongbo Fu Xintao Wang Weicai Ye Pengfei Wan Di Zhang Lin Gao DiffM VGen 40 0 0 30 Mar 2025
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs Xianglong He Junyi Chen Di Huang Zexiang Liu Xiaoshui Huang Wanli Ouyang C. Yuan Yangguang Li DiffM 52 0 0 29 Mar 2025
UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models Fanghua Yu Jinjin Gu Jinfan Hu Zheyuan Li Chao Dong DiffM 50 0 0 21 Mar 2025
BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers Hui Zhang Tingwei Gao Jie Shao Zuxuan Wu 64 0 0 20 Mar 2025
TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models Teng-Fang Hsiao Bo-Kai Ruan Yi-Lun Wu Tzu-Ling Lin Hong-Han Shuai VLM 48 0 0 19 Mar 2025
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control Nvidia Hassan Abu Alhaija Jose M. Alvarez Maciej Bala Tiffany Cai ... Yuchong Ye Xiaodong Yang X. Yang Xiaohui Zeng Yu Zeng VGen 90 1 0 18 Mar 2025
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode Junjia Huang Pengxiang Yan Jinhang Cai Jiyang Liu Zhao Wang Yitong Wang Xinglong Wu Guanbin Li DiffM 70 0 0 17 Mar 2025
AdvPaint: Protecting Images from Inpainting Manipulation via Adversarial Attention Disruption Joonsung Jeon Woo Jae Kim Suhyeon Ha Sooel Son Sung-eui Yoon DiffM AAML 54 0 0 13 Mar 2025
Hyper3D: Efficient 3D Representation via Hybrid Triplane and Octree Feature for Enhanced 3D Shape Variational Auto-Encoders J. Guo Sensen Gao Jia-Wang Bian Wanhu Sun Heliang Zheng Rongfei Jia Mingming Gong 48 1 0 13 Mar 2025
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality Zhengyao Lv Chenyang Si Junhao Song Zhenyu Yang Yu Qiao Ziwei Liu Kwan-Yee K. Wong VGen DiffM 76 7 0 13 Mar 2025
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation Chen Chen Rui Qian Wenze Hu Tsu-jui Fu Jialing Tong ... Lezhi Li Bowen Zhang A. Schwing Wei Liu Y. Yang 50 0 0 13 Mar 2025
SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation Junsong Chen Shuchen Xue Yuyang Zhao Jincheng Yu Sayak Paul Junyu Chen Han Cai E. Xie Song Han VLM 64 2 0 12 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 137 0 0 12 Mar 2025
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories Huiyang Shao Xin Xia Y. Yang Yuxi Ren Xing Wang Xuefeng Xiao 56 1 0 10 Mar 2025
TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang Yiwei Guo Yanbo Ding Kunchang Li Xinyuan Chen Yaohui Wang Fangyikang Wang Ying Zhang Chen Li Y. Wang 45 0 0 10 Mar 2025
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation Yanjie Pan Q. He Zhengkai Jiang P. Xu Chaoyi Wang ... Yun Cao Zhenye Gan M. Chi Bo Peng Y. Wang DiffM 61 0 0 09 Mar 2025
Anti-Diffusion: Preventing Abuse of Modifications of Diffusion-Based Models Zheng Li Liangbin Xie Jiantao Zhou Xintao Wang Haiwei Wu Jinyu Tian 37 0 0 07 Mar 2025
FRMD: Fast Robot Motion Diffusion with Consistency-Distilled Movement Primitives for Smooth Action Generation Xirui Shi Jun Jin DiffM VGen 76 0 0 03 Mar 2025
Training-free and Adaptive Sparse Attention for Efficient Long Video Generation Yifei Xia Suhan Ling Fangcheng Fu Y. Wang Huixia Li Xuefeng Xiao Bin Cui VGen 57 2 0 28 Feb 2025
FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing Jinya Sakurai Issei Sato 74 0 0 06 Feb 2025
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models Gaojie Lin Jianwen Jiang Jiaqi Yang Zerong Zheng Chao Liang DiffM VGen 171 11 0 03 Feb 2025
Accelerate High-Quality Diffusion Models with Inner Loop Feedback M. Gwilliam Han Cai Di Wu Abhinav Shrivastava Zhiyu Cheng 90 0 0 22 Jan 2025
Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer Siyuan Hou Shansong Liu Ruibin Yuan Wei Xue Ying Shan Mangsuo Zhao Chao Zhang 87 3 0 17 Jan 2025
DiC: Rethinking Conv3x3 Designs in Diffusion Models Yuchuan Tian Jing Han Chengcheng Wang Yuchen Liang Chao Xu Hanting Chen DiffM 21 1 0 03 Jan 2025
AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures Situo Zhang Hankun Wang Da Ma Zichen Zhu Lu Chen Kunyao Lan Kai Yu 31 2 0 25 Dec 2024
Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders Rui Chen Jianfeng Zhang Yixun Liang Guan Luo Weiyu Li Jiarui Liu Xiu Li Xiaoxiao Long Jiashi Feng P. Tan 71 11 0 23 Dec 2024
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models Tong Wu Yinghao Xu Ryan Po Mengchen Zhang Guandao Yang Jiaqi Wang Z. Liu Dahua Lin Gordon Wetzstein 66 0 0 10 Dec 2024
DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation Tianyi Yan Dongming Wu Wencheng Han Junpeng Jiang Xia Zhou Kun Zhan Cheng-Zhong Xu Jianbing Shen 30 3 0 18 Nov 2024
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis Yingjie Zhou Zicheng Zhang Jiezhang Cao Jun Jia Yanwei Jiang Farong Wen Xiaohong Liu Xiongkuo Min Guangtao Zhai 48 4 0 18 Nov 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 58 1 0 12 Nov 2024
Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders Viacheslav Surkov Chris Wendler Mikhail Terekhov Justin Deschenaux Robert West Çağlar Gülçehre VLM 40 13 0 28 Oct 2024
FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification J. Yao Wang Cheng Wenyu Liu Xinggang Wang 41 8 0 14 Oct 2024
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding Wei Wu Kecheng Zheng Shuailei Ma Fan Lu Yuxin Guo Yifei Zhang Wei Chen Qingpei Guo Yujun Shen Zheng-Jun Zha VLM 25 9 0 07 Oct 2024
Dynamic Diffusion Transformer Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Yibing Song Gao Huang Fan Wang Yang You 77 11 0 04 Oct 2024
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models Seyedmorteza Sadat Otmar Hilliges Romann M. Weber DiffM 23 8 0 03 Oct 2024
DiVE: DiT-based Video Generation with Enhanced Control Junpeng Jiang Gangyi Hong Lijun Zhou Enhui Ma Hengtong Hu ... Kaicheng Yu Haiyang Sun Kun Zhan Peng Jia Miao Zhang VGen DiffM 38 11 0 03 Sep 2024
SPDiffusion: Semantic Protection Diffusion Models for Multi-concept Text-to-image Generation Yang Zhang Rui Zhang Xuecheng Nie Haochen Li Jikun Chen Yifan Hao Xin Zhang Luoqi Liu Ling Li 39 0 0 02 Sep 2024
Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization Vage Egiazarian Denis Kuznedelev Anton Voronov Ruslan Svirschevski Michael Goin Daniil Pavlov Dan Alistarh Dmitry Baranchuk MQ 31 0 0 31 Aug 2024
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher T. Dao Thuan Hoang Nguyen T. Le D. Vu Khoi Nguyen Cuong Pham Anh Tran DiffM 36 11 0 26 Aug 2024
Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators Yifan Pu Zhuofan Xia Jiayi Guo Dongchen Han Qixiu Li ... Ji Li Yizeng Han Shiji Song Gao Huang Xiu Li 56 11 0 11 Aug 2024
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions Ashkan Taghipour Morteza Ghahremani Bennamoun Aref Miri Rekavandi Zinuo Li Hamid Laga F. Boussaïd VGen 71 2 0 27 Jul 2024
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control Sherwin Bahmani Ivan Skorokhodov Aliaksandr Siarohin Willi Menapace Guocheng Qian ... Chaoyang Wang Jiaxu Zou Andrea Tagliasacchi David B. Lindell Sergey Tulyakov VGen DiffM 80 42 0 17 Jul 2024
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration Pratheba Selvaraju Tianyu Ding Tianyi Chen Ilya Zharkov Luming Liang 34 20 0 01 Jul 2024
Vivid-ZOO: Multi-View Video Generation with Diffusion Model Bing Li Cheng Zheng Wenxuan Zhu Jinjie Mai Biao Zhang Peter Wonka Bernard Ghanem 40 16 0 12 Jun 2024
CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models Hyungjin Chung Jeongsol Kim Geon Yeong Park Hyelin Nam Jong Chul Ye DiffM 34 26 0 12 Jun 2024