SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

16 January 2024

Papers citing "SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers"

50 / 139 papers shown

Title
Generative Pre-trained Autoregressive Diffusion Transformer Yuan Zhang Jiacheng Jiang Guoqing Ma Zhiying Lu Haoyang Huang Jianlong Yuan Nan Duan VGen 16 0 0 12 May 2025
You Only Look One Step: Accelerating Backpropagation in Diffusion Sampling with Gradient Shortcuts Hongkun Dou Zeyu Li Xingyu Jiang H. Li Lijun Yang Wen Yao Yue Deng DiffM 30 0 0 12 May 2025
Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition Zhiyuan Chen Keyi Li Yifan Jia Le Ye Yufei Ma DiffM 25 0 0 09 May 2025
No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves D. Jiang Mengmeng Wang Liuzhuozheng Li Lei Zhang Haoyu Wang Wei Wei Guang Dai Yanning Zhang Jingdong Wang DiffM 35 0 0 05 May 2025
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction Qihao Liu Ju He Qihang Yu Liang-Chieh Chen Alan Yuille DiffM VGen 75 0 0 30 Apr 2025
Enhancing Variational Autoencoders with Smooth Robust Latent Encoding Hyomin Lee Minseon Kim Sangwon Jang Jongheon Jeong S. Hwang DiffM AAML 37 0 0 24 Apr 2025
Boosting Generative Image Modeling via Joint Image-Feature Synthesis Theodoros Kouzelis Efstathios Karypidis Ioannis Kakogeorgiou Spyros Gidaris N. Komodakis DiffM 26 0 0 22 Apr 2025
Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis Zichuan Liu Liming Jiang Qing Yan Yumin Jia Hao Kang Xin Lu DiffM 26 0 0 19 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 103 0 0 17 Apr 2025
$$\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark$ $\texttt{Complex-Edit}$ : CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark S. Yang Mude Hui Bingchen Zhao Yuyin Zhou Nataniel Ruiz Cihang Xie CoGe 70 0 0 17 Apr 2025
Adjoint Sampling: Highly Scalable Diffusion Samplers via Adjoint Matching Aaron J. Havens Benjamin Kurt Miller Bing Yan Carles Domingo-Enrich Anuroop Sriram ... Brandon Amos Brian Karrer Xiang Fu Guan-Horng Liu Ricky T. Q. Chen DiffM 43 0 0 16 Apr 2025
Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers Chunyang Zhang Zhenhong Sun Zhicheng Zhang Junyan Wang Yu Zhang Dong Gong H. Mo Daoyi Dong 33 0 0 14 Apr 2025
Efficient Generative Model Training via Embedded Representation Warmup Deyuan Liu Peng Sun Xufeng Li Tao Lin 19 0 0 14 Apr 2025
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers Xingjian Leng Jaskirat Singh Yunzhong Hou Zhenchang Xing Saining Xie Liang Zheng 34 0 0 14 Apr 2025
Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization Gen Li Yang Xiao Jie Ji Kaiyuan Deng Bo Hui Linke Guo Xiaolong Ma 24 0 0 12 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 29 0 0 11 Apr 2025
DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Hao Luo Yibing Song Gao Huang Fan Wang Yang You 61 0 0 09 Apr 2025
TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis Tri Ton Ji Woo Hong Chang D. Yoo VGen 24 0 0 08 Apr 2025
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives Shuyu Li Shulei Ji Zihao W. Wang Songruoyao Wu Jiaxing Yu K. Zhang MGen VGen 63 1 0 01 Apr 2025
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization Siyuan Li L. Zhang Zedong Wang Juanxi Tian Cheng Tan ... Chang Yu Qingsong Xie Haonan Lu Haoqian Wang Zhen Lei 46 0 0 01 Apr 2025
MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs Xianglong He Junyi Chen Di Huang Zexiang Liu Xiaoshui Huang Wanli Ouyang C. Yuan Yangguang Li DiffM 49 0 0 29 Mar 2025
MMGen: Unified Multi-modal Image Generation and Understanding in One Go Jiepeng Wang Zhaoqing Wang H. Pan Yuan Liu Dongdong Yu Changhu Wang Wenping Wang DiffM 76 0 0 26 Mar 2025
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing Jaihoon Kim Taehoon Yoon Jisung Hwang Minhyuk Sung DiffM 51 1 0 25 Mar 2025
Long-Context Autoregressive Video Modeling with Next-Frame Prediction Yuchao Gu Weijia Mao Mike Zheng Shou VGen 71 1 0 25 Mar 2025
U-REPA: Aligning Diffusion U-Nets to ViTs Yuchuan Tian Hanting Chen Mengyu Zheng Yuchen Liang Chao Xu Yunhe Wang 54 0 0 24 Mar 2025
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 51 1 0 24 Mar 2025
CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models Weichen Fan Amber Yijia Zheng Raymond A. Yeh Ziwei Liu 46 1 0 24 Mar 2025
Panorama Generation From NFoV Image Done Right Dian Zheng Cheng Zhang Xiao-Ming Wu Cao Li Chengfei Lv Jian-Fang Hu Wei-Shi Zheng DiffM 79 0 0 24 Mar 2025
Boosting Resolution Generalization of Diffusion Transformers with Randomized Positional Encodings Cong Liu Liang Hou Mingwu Zheng Xin Tao Pengfei Wan Di Zhang Kun Gai 44 0 0 24 Mar 2025
EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation Zihao Zhang Haoran Chen Haoyu Zhao Guansong Lu Yanwei Fu Hang Xu Zuxuan Wu VGen DiffM 62 0 0 20 Mar 2025
MMAIF: Multi-task and Multi-degradation All-in-One for Image Fusion with Language Guidance Zihan Cao Yu Zhong Z. Wang Liang-Jian Deng 46 0 0 19 Mar 2025
Deeply Supervised Flow-Based Generative Models Inkyu Shin Chenglin Yang Liang-Chieh Chen 58 0 0 18 Mar 2025
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing Tsu-jui Fu Yusu Qian Chen Chen Wenze Hu Zhe Gan Y. Yang 85 1 0 16 Mar 2025
MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation Sungwoo Cho J. Choi Sungnyun Kim Se-Young Yun 54 0 0 14 Mar 2025
Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization Kyle Sargent Kyle Hsu Justin Johnson L. Fei-Fei Jiajun Wu DiffM MU 53 2 0 14 Mar 2025
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm Ziyan Guo Zeyu Hu Na Zhao De Wen Soh VGen 80 2 0 13 Mar 2025
DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image Qi Zhao Zhan Ma Pan Zhou VGen 67 0 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 64 0 0 13 Mar 2025
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation Chen Chen Rui Qian Wenze Hu Tsu-jui Fu Jialing Tong ... Lezhi Li Bowen Zhang A. Schwing Wei Liu Y. Yang 45 0 0 13 Mar 2025
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space Yifan Zhou Zeqi Xiao Shuai Yang Xingang Pan 62 1 0 12 Mar 2025
"Principal Components" Enable A New Language of Images Xin Wen Bingchen Zhao Ismail Elezi Jiankang Deng Xiaojuan Qi 59 0 0 11 Mar 2025
SARA: Structural and Adversarial Representation Alignment for Training-efficient Diffusion Models Hesen Chen Junyan Wang Zhiyu Tan Hao Li 53 0 0 11 Mar 2025
UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion Gongbo Zhang Y. Li Renqian Luo Pipi Hu Zeru Zhao ... Maik Riechert Li-ming Yuan Lei Chen Haiguang Liu Tao Qin DiffM 36 0 0 09 Mar 2025
USP: Unified Self-Supervised Pretraining for Image Generation and Understanding Xiangxiang Chu Renda Li Yong Wang 60 0 0 08 Mar 2025
All-atom Diffusion Transformers: Unified generative modelling of molecules and materials Chaitanya K. Joshi Xiang Fu Yi-Lun Liao Vahe Gharakhanyan Benjamin Kurt Miller Anuroop Sriram Zachary W. Ulissi DiffM 53 3 0 05 Mar 2025
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles Rui Zhao Weijia Mao Mike Zheng Shou 64 0 0 05 Mar 2025
Proteina: Scaling Flow-based Protein Structure Generative Models Tomas Geffner Kieran Didi Zuobai Zhang Danny Reidenbach Zhonglin Cao ... Mario Geiger Christian Dallago E. Küçükbenli Arash Vahdat Karsten Kreis DiffM AI4CE 41 4 0 02 Mar 2025
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation Sucheng Ren Qihang Yu Ju He Xiaohui Shen Alan Yuille Liang-Chieh Chen VGen 76 5 0 27 Feb 2025
Text-to-Image Rectified Flow as Plug-and-Play Priors Xiaofeng Yang Cheng Chen Xulei Yang Fayao Liu Guosheng Lin DiffM 65 7 0 21 Feb 2025
MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation Sihyun Yu Meera Hahn Dan Kondratyuk Jinwoo Shin Agrim Gupta José Lezama Irfan Essa David A. Ross Jonathan Huang DiffM VGen 67 0 0 18 Feb 2025