v1v2 (latest)

Scalable Diffusion Models with Transformers

IEEE International Conference on Computer Vision (ICCV), 2022

19 December 2022

William S. Peebles

Saining Xie

GNN

ArXiv (abs)PDF HTML HuggingFace (18 upvotes)

Papers citing "Scalable Diffusion Models with Transformers"

50 / 2,688 papers shown

Title
Positional Encoding Field Yunpeng Bai Haoxiang Li Qixing Huang VGen 116 3 0 23 Oct 2025
Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge Nimrod Berman O. Joglekar Eitan Kosman Dotan Di Castro Omri Azencot DiffM 178 2 0 23 Oct 2025
LayerComposer: Multi-Human Personalized Generation via Layered Canvas Guocheng Qian Ruihang Zhang Tsai-Shien Chen Yusuf Dalva Anujraaj Goyal ... Arpit Sahni Daniil Ostashev Ju Hu Sergey Tulyakov Kuan-Chieh Wang DiffM 139 1 0 23 Oct 2025
RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling Bingjie Gao Qianli Ma Xiaoxue Wu Shuai Yang Guanzhou Lan ... Qingyang Liu Yu Qiao Xinyuan Chen Y. Wang Li Niu VGen 88 0 0 23 Oct 2025
Evaluating Video Models as Simulators of Multi-Person Pedestrian Trajectories Aaron Appelle Jerome P. Lynch EGVM VGen 148 0 0 23 Oct 2025
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion Noam Issachar Guy Yariv Sagie Benaim Yossi Adi Dani Lischinski Raanan Fattal 108 1 0 23 Oct 2025
UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset Chen Zhao En Ci Yunzhe Xu Tiehan Fan Shanyan Guan Yanhao Ge Jian Yang Ying Tai 140 7 0 23 Oct 2025
Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency Hao Yu H. G. Chen Yan Jiang Wei Peng Zhaodong Sun Samuel Kaski Guoying Zhao 113 0 0 23 Oct 2025
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives Yihao Meng Hao Ouyang Yue Yu Qiuyu Wang Wen Wang ... Yixuan Li Cheng Chen Yanhong Zeng Yujun Shen Huamin Qu VGen 104 4 0 23 Oct 2025
AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models Seunghoon Lee Jeongwoo Choi Byunggwan Son Jaehyeon Moon Jeimin Jeon Bumsub Ham DiffM MQ 196 0 0 23 Oct 2025
Generative AI in Depth: A Survey of Recent Advances, Model Variants, and Real-World ApplicationsJournal of Big Data (JBD), 2025 Shamim Yazdani Akansha Singh N. Saxena Sribala Vidyadhari Chinta Avash Palikhe Deng Pan Umapada Pal Jie Yang Wenbin Zhang 144 2 0 23 Oct 2025
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation Nobline Yoo Olga Russakovsky Ye Zhu 64 0 0 22 Oct 2025
Guiding diffusion models to reconstruct flow fields from sparse data Marc Amorós-Trepat Luis Medrano-Navarro Qiang Liu Luca Guastoni Nils Thuerey DiffM AI4CE 77 0 0 22 Oct 2025
Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall Mingyu Jo Jaesik Yoon Justin Deschenaux Çağlar Gülçehre Sungjin Ahn DiffM 180 0 0 22 Oct 2025
A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation Jiacheng Liu Xinyu Wang Yuqi Lin Zhikai Wang P. Wang ... Zexuan Yan Zhengyi Shi Chang Zou Yue Ma Linfeng Zhang 271 2 0 22 Oct 2025
GigaBrain-0: A World Model-Powered Vision-Language-Action Model GigaBrain Team Angen Ye Boyuan Wang Chaojun Ni Guan Huang ... Yukun Zhou Z. Dong Z. J. Wang Zhichao Liu Zheng Hua Zhu LM&Ro VLM 369 1 0 22 Oct 2025
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks Kai Zeng Zhanqian Wu Kaixin Xiong Xiaobao Wei Xiangyu Guo ... Haiyang Sun Bing Wang Guang Chen Hangjun Ye W. Zhang VGen 163 0 0 22 Oct 2025
RayPose: Ray Bundling Diffusion for Template Views in Unseen 6D Object Pose Estimation Junwen Huang Shishir Reddy Vutukur Peter KT Yu Nassir Navab Slobodan Ilic Benjamin Busam DiffM 102 0 0 21 Oct 2025
SegTune: Structured and Fine-Grained Control for Song Generation Pengfei Cai Joanna Wang Haorui Zheng X. Li Zihao Ji Teng Ma Zhongliang Liu Chen Zhang Pengfei Wan 172 0 0 21 Oct 2025
Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model Zhenxing Zhang Jiayan Teng Zhuoyi Yang Tiankun Cao C. Wang Xiaohan Zhang J. Tang Dan Guo Meng Wang VGen 74 0 0 21 Oct 2025
UltraGen: High-Resolution Video Generation with Hierarchical Attention Teng Hu Jiangning Zhang Zihan Su Ran Yi DiffM VGen 182 5 0 21 Oct 2025
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation Weinan Jia Yuning Lu Mengqi Huang Hualiang Wang Binyuan Huang Nan Chen Mu Liu Jidong Jiang Zhendong Mao VGen VLM 88 2 0 21 Oct 2025
Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models Tianci Bi Xiaoyi Zhang Yan Lu Nanning Zheng 143 2 0 21 Oct 2025
Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis Xinhao Cai Liulei Li Gensheng Pei Tao Chen Jinshan Pan Yazhou Yao Wenguan Wang 148 0 0 21 Oct 2025
Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey Weifan Guan Qinghao Hu Aosheng Li Jian Cheng LM&Ro 326 6 0 20 Oct 2025
MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models Yongshun Zhang Zhongyi Fan Yonghang Zhang Zhangzikang Li Weifeng Chen Zhongwei Feng Chaoyue Wang Peng Hou Anxiang Zeng VGen 251 0 0 20 Oct 2025
Fighter: Unveiling the Graph Convolutional Nature of Transformers in Time Series Modeling Chen Zhang Weixin Bu Wendong Xu Runsheng Yu Yik-Chung Wu Ngai Wong AI4TS BDL 127 0 0 20 Oct 2025
Latent Discrete Diffusion Models Dario Shariatian Alain Durmus Stefano Peluchetti DiffM 210 0 0 20 Oct 2025
On Efficiency-Effectiveness Trade-off of Diffusion-based Recommenders Wenyu Mao Jiancan Wu Guoqing Hu Zhengyi Yang Wei Ji Xiang Wang DiffM 172 0 0 20 Oct 2025
Raindrop GS: A Benchmark for 3D Gaussian Splatting under Raindrop Conditions Zhiqiang Teng Beibei Lin Tingting Chen Zifeng Yuan Xuanyi Li Xuanyu Zhang Shunli Zhang 3DGS 150 0 0 20 Oct 2025
Accelerating Vision Transformers with Adaptive Patch Sizes Rohan Choudhury JungEun Kim Jeongseok Lee Eunho Yang László A. Jeni Kishore Venkateshan ViT 92 1 0 20 Oct 2025
Unbiased Gradient Low-Rank Projection Rui Pan Yang Luo Yuxing Liu Yang You Tong Zhang 132 0 0 20 Oct 2025
Soft-Masked Diffusion Language Models Michael Hersche Samuel Moor-Smith Thomas Hofmann Abbas Rahimi 240 0 0 20 Oct 2025
Demystifying Transition Matching: When and Why It Can Beat Flow Matching Jaihoon Kim Rajarshi Saha Minhyuk Sung Youngsuk Park 97 0 0 20 Oct 2025
Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement Xiaogang Xu Jian Wang Yunfan Lu Ruihang Chu Ruixing Wang Jiafei Wu Bei Yu Liang Lin DiffM 156 0 0 20 Oct 2025
Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling Feihong Yan P. Wang Yao Zhu Kaiyu Pang Qingyan Wei Huiqi Li Linfeng Zhang DiffM 90 0 0 20 Oct 2025
One-step Diffusion Models with Bregman Density Ratio Matching Yuanzhi Zhu Eleftherios Tsonis Lucas Degeorge Vicky Kalogeiton DiffM 125 1 0 19 Oct 2025
Efficient High-Accuracy PDEs Solver with the Linear Attention Neural Operator Ming Zhong Zhenya Yan AI4CE 97 0 0 19 Oct 2025
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling Erik Riise Mehmet Onurcan Kaya Dim P. Papadopoulos 259 0 0 19 Oct 2025
Class-N-Diff: Classification-Induced Diffusion Model Can Make Fair Skin Cancer Diagnosis Nusrat Munia Abdullah-Al-Zubaer Imran DiffM MedIm 132 0 0 19 Oct 2025
Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention Yuyao Zhang Yu-Wing Tai 112 0 0 18 Oct 2025
Sequence Modeling with Spectral Mean Flows Jinwoo Kim Max Beier Nicolas Hoischen Nayun Kim Seunghoon Hong BDL 138 0 0 17 Oct 2025
Cost Savings from Automatic Quality Assessment of Generated Images Xavier Giró-i-Nieto Nefeli Andreou Anqi Liang Manel Baradad Francesc Moreno-Noguer Aleix M. Martinez 206 0 0 17 Oct 2025
The Hidden Cost of Modeling P(X): Vulnerability to Membership Inference Attacks in Generative Text Classifiers Owais Makroo Siva Rajesh Kasa Sumegh Roychowdhury Karan Gupta Nikhil Pattisapu Santhosh Kumar Kasa Sumit Negi SILM 178 0 0 17 Oct 2025
Latent Diffusion Model without Variational Autoencoder Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan X. Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu 283 13 0 17 Oct 2025
VDRive: Leveraging Reinforced VLA and Diffusion Policy for End-to-end Autonomous Driving Ziang Guo Zufeng Zhang 100 2 0 17 Oct 2025
AB-UPT for Automotive and Aerospace Applications Benedikt Alkin Richard Kurle Louis Serrano Dennis Just Johannes Brandstetter AI4CE 52 1 0 17 Oct 2025
H2OFlow: Grounding Human-Object Affordances with 3D Generative Models and Dense Diffused Flows Harry Zhang Luca Carlone 105 0 0 17 Oct 2025
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset Qingyan Bai Qiuyu Wang Hao Ouyang Yue Yu Hanlin Wang ... Yanhong Zeng Zichen Liu Yinghao Xu Yujun Shen Qifeng Chen VGen 247 10 0 17 Oct 2025
Diffusion Bridge Networks Simulate Clinical-grade PET from MRI for Dementia Diagnostics Yitong Li Ralph Buchert B. Schmitz-Koep Timo Grimmer Björn Ommer D. Hedderich Igor Yakushev Christian Wachinger MedIm 145 0 0 17 Oct 2025