SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

16 January 2024

Papers citing "SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers"

39 / 139 papers shown

Title
Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% Lei Zhu Fangyun Wei Yanye Lu Dong Chen VLM 28 31 0 17 Jun 2024
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models Qihao Liu Zhanpeng Zeng Ju He Qihang Yu Xiaohui Shen Liang-Chieh Chen 40 18 0 13 Jun 2024
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation Kai Wang Shijian Deng Jing Shi Dimitrios Hatzinakos Yapeng Tian VGen 64 8 0 11 Jun 2024
Flow Map Matching Nicholas M. Boffi M. S. Albergo Eric Vanden-Eijnden 25 4 0 11 Jun 2024
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis Zhijun Liu Shuai Wang Sho Inoue Qibing Bai Haizhou Li DiffM 32 15 0 08 Jun 2024
ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization L. Eyring Shyamgopal Karthik Karsten Roth Alexey Dosovitskiy Zeynep Akata 71 16 0 06 Jun 2024
Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT Le Zhuo Ruoyi Du Han Xiao Yangguang Li Dongyang Liu ... Wanli Ouyang Ziwei Liu Yu Qiao Hongsheng Li Peng Gao 47 43 0 05 Jun 2024
Unlocking Guidance for Discrete State-Space Diffusion and Flow Models Hunter Nisonoff Junhao Xiong Stephan Allenspach Jennifer Listgarten 55 29 0 03 Jun 2024
Patch-enhanced Mask Encoder Prompt Image Generation Shusong Xu Peiye Liu DiffM 22 0 0 29 May 2024
Fast Samplers for Inverse Problems in Iterative Refinement Models Kushagra Pandey Ruihan Yang Stephan Mandt DiffM 47 3 0 27 May 2024
Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity Haoxuan Chen Yinuo Ren Lexing Ying Grant M. Rotskoff 33 15 0 24 May 2024
TerDiT: Ternary Diffusion Models with Transformers Xudong Lu Aojun Zhou Ziyi Lin Qi Liu Yuhui Xu Renrui Zhang Yafei Wen Shuai Ren Peng Gao Junchi Yan MQ 37 2 0 23 May 2024
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models Rui-Xue Xu Jie-Chao Wang Hao Pan Yang Liu Xin Tong Shiqing Xin Changhe Tu Taku Komura Wenping Wang DiffM 24 1 0 22 May 2024
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers Peng Gao Le Zhuo Ziyi Lin Ruoyi Du Xu Luo ... Weicai Ye He Tong Jingwen He Yu Qiao Hongsheng Li VGen 30 81 0 09 May 2024
U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers Yuchuan Tian Zhijun Tu Hanting Chen Jie Hu Chao Xu Yunhe Wang 23 16 0 04 May 2024
A Survey on Diffusion Models for Time Series and Spatio-Temporal Data Yiyuan Yang Ming Jin Haomin Wen Chaoli Zhang Yuxuan Liang ... Bin Yang Zenglin Xu Jiang Bian Shirui Pan Qingsong Wen DiffM AI4TS SyDa 29 7 0 29 Apr 2024
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model Han Lin Jaemin Cho Abhaysinh Zala Mohit Bansal DiffM VGen 58 20 0 15 Apr 2024
Diffusion Models Meet Remote Sensing: Principles, Methods, and Perspectives Yidan Liu Jun Yue Shaobo Xia Pedram Ghamisi Weiying Xie Leyuan Fang DiffM 33 11 0 13 Apr 2024
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models Zhengcong Fei Mingyuan Fan Changqian Yu Debang Li Junshi Huang 32 23 0 06 Apr 2024
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models Kangfu Mei Zhengzhong Tu M. Delbracio Hossein Talebi Vishal M. Patel P. Milanfar DiffM 50 12 0 01 Apr 2024
IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions Zhijun Tu Kunpeng Du Hanting Chen Hai-lin Wang Wei Li Jie Hu Yunhe Wang ViT 31 4 0 31 Mar 2024
LayoutFlow: Flow Matching for Layout Generation Julian Jorge Andrade Guerreiro Naoto Inoue Kento Masui Mayu Otani Hideki Nakayama DiffM 22 7 0 27 Mar 2024
ZigMa: A DiT-style Zigzag Mamba Diffusion Model Vincent Tao Hu S. A. Baumann Ming Gui Olga Grebenkova Pingchuan Ma Johannes S. Fischer Bjorn Ommer 35 42 0 20 Mar 2024
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework Zhengqing Yuan Ruoxi Chen Zhaoxu Li Haolong Jia Lifang He Chi Wang Lichao Sun VGen 50 27 0 20 Mar 2024
Denoising Task Difficulty-based Curriculum for Training Diffusion Models Jin-Young Kim Hyojun Go Soonwoo Kwon Hyun-Gyoon Kim DiffM 42 6 0 15 Mar 2024
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation Junsong Chen Chongjian Ge Enze Xie Yue Wu Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li 128 85 0 07 Mar 2024
VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks Xiangxiang Chu Jianlin Su Bo-Wen Zhang Chunhua Shen MLLM 27 10 0 01 Mar 2024
DiffiT: Diffusion Vision Transformers for Image Generation Ali Hatamizadeh Jiaming Song Guilin Liu Jan Kautz Arash Vahdat 22 66 0 04 Dec 2023
Multisample Flow Matching: Straightening Flows with Minibatch Couplings Aram-Alexandre Pooladian Heli Ben-Hamu Carles Domingo-Enrich Brandon Amos Y. Lipman Ricky T. Q. Chen 60 125 0 28 Apr 2023
MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer Shanghua Gao Pan Zhou Mingg-Ming Cheng Shuicheng Yan DiffM 135 155 0 25 Mar 2023
Stochastic Interpolants: A Unifying Framework for Flows and Diffusions M. S. Albergo Nicholas M. Boffi Eric Vanden-Eijnden DiffM 244 260 0 15 Mar 2023
Diffusion Model Based Posterior Sampling for Noisy Linear Inverse Problems Xiangming Meng Y. Kabashima DiffM 8 51 0 20 Nov 2022
Convergence of score-based generative modeling for general data distributions Holden Lee Jianfeng Lu Yixin Tan DiffM 177 128 0 26 Sep 2022
Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions Sitan Chen Sinho Chewi Jungshian Li Yuanzhi Li Adil Salim Anru R. Zhang DiffM 123 245 0 22 Sep 2022
Matching Normalizing Flows and Probability Paths on Manifolds Heli Ben-Hamu Samuel N. Cohen Joey Bose Brandon Amos Aditya Grover Maximilian Nickel Ricky T. Q. Chen Y. Lipman 50 39 0 11 Jul 2022
StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets Axel Sauer Katja Schwarz Andreas Geiger 182 485 0 01 Feb 2022
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 249 1,982 0 28 Jul 2020
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 229 74,467 0 18 May 2015
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014