v1v2 (latest)

Scalable Diffusion Models with Transformers

IEEE International Conference on Computer Vision (ICCV), 2022

19 December 2022

William S. Peebles

Saining Xie

GNN

ArXiv (abs)PDF HTML HuggingFace (18 upvotes)

Papers citing "Scalable Diffusion Models with Transformers"

50 / 2,711 papers shown

Diffusion Transformer meets Multi-level Wavelet Spectrum for Single Image Super-Resolution

405

03 Nov 2025

EVLP:Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning

103

03 Nov 2025

Occlusion-Aware Diffusion Model for Pedestrian Intention Prediction

263

02 Nov 2025

RefVTON: person-to-person Try on with Additional Unpaired Visual Reference

352

02 Nov 2025

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

127

02 Nov 2025

ID-Crafter: VLM-Grounded Online RL for Compositional Multi-Subject Video Generation

355

01 Nov 2025

iFlyBot-VLA Technical Report

307

01 Nov 2025

MIFO: Learning and Synthesizing Multi-Instance from One Image

106

01 Nov 2025

MolChord: Structure-Sequence Alignment for Protein-Guided Drug Design

106

31 Oct 2025

E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources

132

31 Oct 2025

Foundation Models for Trajectory Planning in Autonomous Driving: A Review of Progress and Open Challenges

31 Oct 2025

Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis

134

31 Oct 2025

Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

206

31 Oct 2025

Learning Generalizable Visuomotor Policy through Dynamics-Alignment

31 Oct 2025

InertialAR: Autoregressive 3D Molecule Generation with Inertial Frames

156

31 Oct 2025

UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens

239

30 Oct 2025

Jasmine: A Simple, Performant and Scalable JAX-based World Modeling Codebase

194

30 Oct 2025

LeMiCa: Lexicographic Minimax Path Caching for Efficient Diffusion-Based Video Generation

346

30 Oct 2025

Denoising Refinement Diffusion Models for Simultaneous Generation of Multi-scale Mobile Network Traffic

30 Oct 2025

Co-Evolving Latent Action World Models

225

30 Oct 2025

Emu3.5: Native Multimodal Models are World Learners

...

457

30 Oct 2025

OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

169

30 Oct 2025

ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion

207

29 Oct 2025

VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning

...

239

29 Oct 2025

RegionE: Adaptive Region-Aware Generation for Efficient Image Editing

305

29 Oct 2025

MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

377

29 Oct 2025

Bayesian Speech synthesizers Can Learn from Multiple Teachers

28 Oct 2025

Neural USD: An object-centric framework for iterative editing and control

Alejandro Escontrela

Shrinu Kushagra

Sjoerd van Steenkiste

148

28 Oct 2025

Generative View Stitching

293

28 Oct 2025

ETC: training-free diffusion models acceleration with Error-aware Trend Consistency

194

28 Oct 2025

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

273

28 Oct 2025

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

...

215

28 Oct 2025

VividCam: Learning Unconventional Camera Motions from Virtual Synthetic Videos

341

28 Oct 2025

Group Relative Attention Guidance for Image Editing

211

28 Oct 2025

Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling

242

28 Oct 2025

FreeFuse: Multi-Subject LoRA Fusion via Auto Masking at Test Time

Yaoli Liu

Yao-Xiang Ding

Kun Zhou

189

27 Oct 2025

More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models

520

27 Oct 2025

Mixed-Density Diffuser: Efficient Planning with Non-Uniform Temporal Resolution

Crimson Stambaugh

Rajesh P. N. Rao

DiffM

218

27 Oct 2025

$M$^{3}$T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark$

^{3}

T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark

Huixuan Zhang

Xiaojun Wan

VLM

258

27 Oct 2025

TRELLISWorld: Training-Free World Generation from Object Generators

Hanke Chen

Yuan Liu

Minchen Li

151

27 Oct 2025

Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method

...

153

27 Oct 2025

LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

...

363

27 Oct 2025

On the Anisotropy of Score-Based Generative Models

Andreas Floros

Seyed-Mohsen Moosavi-Dezfooli

Pier Luigi Dragotti

209

27 Oct 2025

Sampling from Energy distributions with Target Concrete Score Identity

Sergei Kholkin

Francisco Vargas

Alexander Korotin

141

27 Oct 2025

FARMER: Flow AutoRegressive Transformer over Pixels

255

27 Oct 2025

RareFlow: Physics-Aware Flow-Matching for Cross-Sensor Super-Resolution of Rare-Earth Features

304

27 Oct 2025

Simple Denoising Diffusion Language Models

158

27 Oct 2025

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

152

27 Oct 2025

A Survey on Efficient Vision-Language-Action Models

202

27 Oct 2025

SAO-Instruct: Free-form Audio Editing using Natural Language Instructions

163

26 Oct 2025