v1v2 (latest)

Scalable Diffusion Models with Transformers

IEEE International Conference on Computer Vision (ICCV), 2022

19 December 2022

William S. Peebles

Saining Xie

GNN

ArXiv (abs)PDF HTML HuggingFace (18 upvotes)

Papers citing "Scalable Diffusion Models with Transformers"

50 / 2,711 papers shown

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

207

14 Oct 2025

EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels

...

217

14 Oct 2025

PAINT: Parallel-in-time Neural Twins for Dynamical System Reconstruction

Andreas Radler

Vincent Seyfried

Stefan Pirker

Johannes Brandstetter

Thomas Lichtenegger

138

14 Oct 2025

SceneAdapt: Scene-aware Adaptation of Human Motion Diffusion

257

14 Oct 2025

BIGFix: Bidirectional Image Generation with Token Fixing

149

14 Oct 2025

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

187

13 Oct 2025

Massive Activations are the Key to Local Detail Synthesis in Diffusion Transformers

161

13 Oct 2025

WaveletDiff: Multilevel Wavelet Diffusion For Time Series Generation

Yu-Hsiang Wang

O. Milenkovic

DiffM AI4TS

343

13 Oct 2025

MosaicDiff: Training-free Structural Pruning for Diffusion Model Acceleration Reflecting Pretraining Dynamics

155

13 Oct 2025

Joint Discriminative-Generative Modeling via Dual Adversarial Training

435

13 Oct 2025

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

179

13 Oct 2025

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

...

162

13 Oct 2025

Flow Matching-Based Autonomous Driving Planning with Advanced Interactive Behavior Modeling

117

13 Oct 2025

DiffStyleTS: Diffusion Model for Style Transfer in Time Series

...

108

13 Oct 2025

Diffusion Transformers with Representation Autoencoders

206

13 Oct 2025

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

137

13 Oct 2025

Unified Open-World Segmentation with Multi-Modal Prompts

107

12 Oct 2025

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

107

12 Oct 2025

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

...

190

12 Oct 2025

Latent Retrieval Augmented Generation of Cross-Domain Protein Binders

190

12 Oct 2025

DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis

12 Oct 2025

Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation

12 Oct 2025

ProteinAE: Protein Diffusion Autoencoders for Structure Encoding

133

12 Oct 2025

EditCast3D: Single-Frame-Guided 3D Editing with Video Propagation and View Selection

139

11 Oct 2025

Multi-Scale Diffusion Transformer for Jointly Simulating User Mobility and Mobile Traffic Pattern

11 Oct 2025

SyncLipMAE: Contrastive Masked Pretraining for Audio-Visual Talking-Face Representation

157

11 Oct 2025

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

...

239

11 Oct 2025

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

124

11 Oct 2025

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

...

217

10 Oct 2025

A PCA-based Data Prediction MethodBaltic Journal of Modern Computing (BJMC), 2025

150

10 Oct 2025

Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy

176

10 Oct 2025

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

...

311

10 Oct 2025

Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

134

10 Oct 2025

HeadsUp! High-Fidelity Portrait Image Super-Resolution

275

10 Oct 2025

If Probable, Then Acceptable? Understanding Conditional Acceptability Judgments in Large Language Models

264

09 Oct 2025

MultiCOIN: Multi-Modal COntrollable Video INbetweening

185

09 Oct 2025

MeanVC: Lightweight and Streaming Zero-Shot Voice Conversion via Mean Flows

165

09 Oct 2025

A Honest Cross-Validation Estimator for Prediction Performance

Tianyu Pan

Vincent Z. Yu

Viswanath Devanarayan

Lu Tian

142

09 Oct 2025

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

166

09 Oct 2025

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

09 Oct 2025

FlowLensing: Simulating Gravitational Lensing with Flow Matching

200

09 Oct 2025

Graph Diffusion Transformers are In-Context Molecular Designers

09 Oct 2025

CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving

205

09 Oct 2025

FreqCa: Accelerating Diffusion Models via Frequency-Aware Caching

...

104

09 Oct 2025

PAC Learnability in the Presence of Performativity

Ivan Kirev

Lyuben Baltadzhiev

Nikola Konstantinov

134

09 Oct 2025

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

275

09 Oct 2025

FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control

245

09 Oct 2025

A Diffusion Model for Regular Time Series Generation from Irregular Data with Completion and Masking

161

08 Oct 2025

scPPDM: A Diffusion Model for Single-Cell Drug-Response Prediction

08 Oct 2025

Revisiting Mixout: An Overlooked Path to Robust Finetuning

243

08 Oct 2025