Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2403.03206
Cited By

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

5 March 2024

Frederic Boesel

ArXiv (abs)PDF HTML HuggingFace (68 upvotes)

Papers citing "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis"

50 / 1,247 papers shown

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025

Nasrin Imanpour

241

2

0

16 May 2025

DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning

DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning

447

3

0

16 May 2025

Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis

Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2025

280

9

0

15 May 2025

Path Gradients after Flow Matching

Path Gradients after Flow Matching

313

1

0

15 May 2025

Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios

Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios

Jianzhong Liang

375

0

0

14 May 2025

Fast Text-to-Audio Generation with Adversarial Post-Training

Fast Text-to-Audio Generation with Adversarial Post-Training

...

Gian Marco Iodice

Taylor Berg-Kirkpatrick

516

8

0

13 May 2025

DanceGRPO: Unleashing GRPO on Visual Generation

DanceGRPO: Unleashing GRPO on Visual Generation

...

540

144

0

12 May 2025

Improving Trajectory Stitching with Flow Models

Improving Trajectory Stitching with Flow Models

Reece O'Mahoney

Ioannis Havoutis

417

0

0

12 May 2025

FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images

FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images

Luuk Spreeuwers

487

1

0

12 May 2025

You Only Look One Step: Accelerating Backpropagation in Diffusion Sampling with Gradient Shortcuts

You Only Look One Step: Accelerating Backpropagation in Diffusion Sampling with Gradient Shortcuts

529

0

0

12 May 2025

H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

^3

DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

397

4

0

12 May 2025

Addressing degeneracies in latent interpolation for diffusion models

Addressing degeneracies in latent interpolation for diffusion modelsScandinavian Conference on Image Analysis (SCIA), 2025

312

0

0

12 May 2025

Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition

Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value DecompositionComputer Vision and Pattern Recognition (CVPR), 2025

312

5

0

09 May 2025

From Pixels to Perception: Interpretable Predictions via Instance-wise Grouped Feature Selection

From Pixels to Perception: Interpretable Predictions via Instance-wise Grouped Feature Selection

Moritz Vandenhirtz

401

1

0

09 May 2025

The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization

The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization

Mosharaf Chowdhury

672

8

0

09 May 2025

Flow-GRPO: Training Flow Matching Models via Online RL

Flow-GRPO: Training Flow Matching Models via Online RL

829

178

0

08 May 2025

Does CLIP perceive art the same way we do?

Does CLIP perceive art the same way we do?

Leonardo Dessì

Maria Chiara Tonetti

342

1

0

08 May 2025

InstanceGen: Image Generation with Instance-level Instructions

InstanceGen: Image Generation with Instance-level Instructions

Hadar Averbuch-Elor

424

4

0

08 May 2025

Defining and Quantifying Creative Behavior in Popular Image Generators

Defining and Quantifying Creative Behavior in Popular Image Generators

Aditi Ramaswamy

Melane Navaratnarajah

233

0

0

07 May 2025

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

Zhengguang Zhou

515

37

0

07 May 2025

Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers

Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers

Divyansh Srivastava

271

5

0

07 May 2025

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

351

13

0

06 May 2025

FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing

FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing

983

15

0

06 May 2025

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction

...

572

10

0

05 May 2025

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing

454

12

0

05 May 2025

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

Liuzhuozheng Li

541

16

0

05 May 2025

T2S: High-resolution Time Series Generation with Text-to-Series Diffusion Models

T2S: High-resolution Time Series Generation with Text-to-Series Diffusion ModelsInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

770

6

0

05 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.1K

32

0

05 May 2025

VSC: Visual Search Compositional Text-to-Image Diffusion Model

VSC: Visual Search Compositional Text-to-Image Diffusion Model

286

2

0

02 May 2025

Improving Editability in Image Generation with Layer-wise Memory

Improving Editability in Image Generation with Layer-wise MemoryComputer Vision and Pattern Recognition (CVPR), 2025

297

1

0

02 May 2025

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

654

4

0

01 May 2025

Multi-Modal Language Models as Text-to-Image Model Evaluators

Multi-Modal Language Models as Text-to-Image Model Evaluators

Reyhane Askari Hemmat

Adriana Romero-Soriano

387

1

0

01 May 2025

Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space

Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space

524

6

0

30 Apr 2025

ReVision: Refining Video Diffusion with Explicit 3D Motion Modeling

ReVision: Refining Video Diffusion with Explicit 3D Motion Modeling

Liang-Chieh Chen

511

5

0

30 Apr 2025

PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking

PRISM-DP: Spatial Pose-based Observations for Diffusion-Policies via Segmentation, Mesh Generation, and Pose Tracking

393

5

0

29 Apr 2025

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object Perception

Antidote: A Unified Framework for Mitigating LVLM Hallucinations in Counterfactual Presupposition and Object PerceptionComputer Vision and Pattern Recognition (CVPR), 2025

535

3

0

29 Apr 2025

X-Fusion: Introducing New Modality to Frozen Large Language Models

X-Fusion: Introducing New Modality to Frozen Large Language Models

Siddharth Srinivasan Iyer

...

Krishna Kumar Singh

380

8

0

29 Apr 2025

SynergyAmodal: Deocclude Anything with Text Control

SynergyAmodal: Deocclude Anything with Text Control

Shengchuan Zhang

283

3

0

28 Apr 2025

IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos

IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular VideosComputer Vision and Pattern Recognition (CVPR), 2025

316

1

0

27 Apr 2025

Learning to Drive from a World Model

Learning to Drive from a World Model

Armand du Parc Locmaria

Harald Schäfer

216

5

0

27 Apr 2025

REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models

REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models

247

1

0

26 Apr 2025

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

...

507

12

0

24 Apr 2025

Step1X-Edit: A Practical Framework for General Image Editing

Step1X-Edit: A Practical Framework for General Image Editing

...

762

172

0

24 Apr 2025

DreamO: A Unified Framework for Image Customization

DreamO: A Unified Framework for Image Customization

...

585

48

0

23 Apr 2025

DiTPainter: Efficient Video Inpainting with Diffusion Transformers

DiTPainter: Efficient Video Inpainting with Diffusion Transformers

365

2

0

22 Apr 2025

FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation

FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation

496

1

0

22 Apr 2025

DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation

DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation

369

1

0

21 Apr 2025

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image RestorationComputer Vision and Pattern Recognition (CVPR), 2025

319

3

0

21 Apr 2025

"I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts

"I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts

Michael D. Grossberg

257

0

0

21 Apr 2025

OmniAudio: Generating Spatial Audio from 360-Degree Video

OmniAudio: Generating Spatial Audio from 360-Degree Video

...

472

11

0

21 Apr 2025

1 2 3...15 16 17...23 24 25

Page 16 of 25

Pageof 25