Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2212.09748
Cited By

Scalable Diffusion Models with Transformers

v1v2 (latest)

Scalable Diffusion Models with Transformers

IEEE International Conference on Computer Vision (ICCV), 2022

19 December 2022

William S. Peebles

ArXiv (abs)PDF HTML HuggingFace (18 upvotes)

Papers citing "Scalable Diffusion Models with Transformers"

50 / 2,712 papers shown

Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation

Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation

237

1

0

29 Nov 2025

PhysGen: Physically Grounded 3D Shape Generation for Industrial Design

PhysGen: Physically Grounded 3D Shape Generation for Industrial Design

100

0

0

29 Nov 2025

CC-FMO: Camera-Conditioned Zero-Shot Single Image to 3D Scene Generation with Foundation Model Orchestration

197

0

0

29 Nov 2025

What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

Vicky Kalogeiton

Dimitris Samaras

91

1

0

29 Nov 2025

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

...

224

1

0

28 Nov 2025

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

Harold Haodong Chen

186

2

0

28 Nov 2025

Vision Bridge Transformer at Scale

Vision Bridge Transformer at Scale

107

0

0

28 Nov 2025

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

DisMo: Disentangled Motion Representations for Open-World Motion Transfer

Thomas Ressler-Antal

Malek Ben Alaya

108

0

0

28 Nov 2025

BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

200

2

0

28 Nov 2025

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

...

127

2

0

28 Nov 2025

Guiding Visual Autoregressive Models through Spectrum Weakening

Guiding Visual Autoregressive Models through Spectrum Weakening

176

0

0

28 Nov 2025

McSc: Motion-Corrective Preference Alignment for Video Generation with Self-Critic Hierarchical Reasoning

McSc: Motion-Corrective Preference Alignment for Video Generation with Self-Critic Hierarchical Reasoning

258

0

0

28 Nov 2025

GOATex: Geometry & Occlusion-Aware Texturing

GOATex: Geometry & Occlusion-Aware Texturing

107

0

0

28 Nov 2025

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

Jiangning Zhang

133

0

0

28 Nov 2025

db-SP: Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism

db-SP: Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism

113

0

0

28 Nov 2025

Scalable Diffusion Transformer for Conditional 4D fMRI Synthesis

Scalable Diffusion Transformer for Conditional 4D fMRI Synthesis

260

0

0

28 Nov 2025

InstanceV: Instance-Level Video Generation

InstanceV: Instance-Level Video Generation

Jiangning Zhang

126

0

0

28 Nov 2025

Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories

Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories

Dimitris N. Metaxas

269

1

0

28 Nov 2025

Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective

Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective

Saketh Rambhatla

133

0

0

27 Nov 2025

TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning

TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning

Vinay Kumar Verma

103

0

0

27 Nov 2025

Adversarial Flow Models

Adversarial Flow Models

154

0

0

27 Nov 2025

ITS3D: Inference-Time Scaling for Text-Guided 3D Diffusion Models

ITS3D: Inference-Time Scaling for Text-Guided 3D Diffusion Models

127

0

0

27 Nov 2025

Generative Anchored Fields: Controlled Data Generation via Emergent Velocity Fields and Transport Algebra

Generative Anchored Fields: Controlled Data Generation via Emergent Velocity Fields and Transport Algebra

Deressa Wodajo Deressa

Glenn Van Wallendael

69

0

0

27 Nov 2025

StreamFlow: Theory, Algorithm, and Implementation for High-Efficiency Rectified Flow Generation

StreamFlow: Theory, Algorithm, and Implementation for High-Efficiency Rectified Flow Generation

Dimitris N. Metaxas

Dimitris N. Metaxas

156

1

0

27 Nov 2025

IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer

IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer

100

0

0

27 Nov 2025

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

ReasonEdit: Towards Reasoning-Enhanced Image Editing Models

...

252

0

0

27 Nov 2025

MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

214

0

0

26 Nov 2025

Which Layer Causes Distribution Deviation? Entropy-Guided Adaptive Pruning for Diffusion and Flow Models

Which Layer Causes Distribution Deviation? Entropy-Guided Adaptive Pruning for Diffusion and Flow Models

267

0

0

26 Nov 2025

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Maya Goldenberg

Tsai-Shien Chen

Sergey Tulyakov

Kuan-Chieh Wang

222

0

0

26 Nov 2025

MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training

MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training

540

0

0

26 Nov 2025

Deep Parameter Interpolation for Scalar Conditioning

Deep Parameter Interpolation for Scalar Conditioning

Chicago Y. Park

Michael T. McCann

Cristina Garcia-Cardona

Ulugbek S. Kamilov

280

0

0

26 Nov 2025

DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

Prin Phunyaphibarn

124

0

0

26 Nov 2025

FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

200

0

0

26 Nov 2025

Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning

Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning

279

0

0

26 Nov 2025

3MDiT: Unified Tri-Modal Diffusion Transformer for Text-Driven Synchronized Audio-Video Generation

3MDiT: Unified Tri-Modal Diffusion Transformer for Text-Driven Synchronized Audio-Video Generation

Pilar Oplustil Gallegos

Ioannis Koutsoumpas

...

193

0

0

26 Nov 2025

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

...

551

0

0

26 Nov 2025

Saddle-Free Guidance: Improved On-Manifold Sampling without Labels or Additional Training

Saddle-Free Guidance: Improved On-Manifold Sampling without Labels or Additional Training

133

0

0

26 Nov 2025

Going with the Speed of Sound: Pushing Neural Surrogates into Highly-turbulent Transonic Regimes

Going with the Speed of Sound: Pushing Neural Surrogates into Highly-turbulent Transonic Regimes

Fabian Paischer

Maurits Bleeker

Tobias Kronlachner

Johannes Brandstetter

221

1

0

26 Nov 2025

DUO-TOK: Dual-Track Semantic Music Tokenizer for Vocal-Accompaniment Generation

DUO-TOK: Dual-Track Semantic Music Tokenizer for Vocal-Accompaniment Generation

171

1

0

25 Nov 2025

DINO-Tok: Adapting DINO for Visual Tokenizers

DINO-Tok: Adapting DINO for Visual Tokenizers

...

201

0

0

25 Nov 2025

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

...

327

1

0

25 Nov 2025

A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control

A Training-Free Approach for Multi-ID Customization via Attention Adjustment and Spatial Control

288

0

0

25 Nov 2025

Layer-Aware Video Composition via Split-then-Merge

Layer-Aware Video Composition via Split-then-Merge

Ming-Hsuan Yang

186

0

0

25 Nov 2025

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning

HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning

369

0

0

25 Nov 2025

Rectified SpaAttn: Revisiting Attention Sparsity for Efficient Video Generation

Rectified SpaAttn: Revisiting Attention Sparsity for Efficient Video Generation

151

0

0

25 Nov 2025

PromptMoG: Enhancing Diversity in Long-Prompt Image Generation via Prompt Embedding Mixture-of-Gaussian Sampling

PromptMoG: Enhancing Diversity in Long-Prompt Image Generation via Prompt Embedding Mixture-of-Gaussian Sampling

Teng-Fang Hsiao

189

0

0

25 Nov 2025

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

Hidir Yesiltepe

Tuna Han Salih Meral

233

5

0

25 Nov 2025

A Reason-then-Describe Instruction Interpreter for Controllable Video Generation

A Reason-then-Describe Instruction Interpreter for Controllable Video Generation

188

0

0

25 Nov 2025

OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

206

0

0

25 Nov 2025

Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

208

1

0

25 Nov 2025

1 2 3 4 5...53 54 55

Page 2 of 55

Pageof 55