Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2403.03206
Cited By

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

5 March 2024

Frederic Boesel

ArXiv (abs)PDF HTML HuggingFace (68 upvotes)

Papers citing "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis"

50 / 1,247 papers shown

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

263

12

0

21 Apr 2025

Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis

Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis

...

313

7

0

20 Apr 2025

Towards Explainable Fake Image Detection with Multi-Modal Large Language Models

Towards Explainable Fake Image Detection with Multi-Modal Large Language Models

516

4

0

19 Apr 2025

PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling

PRISM: A Unified Framework for Photorealistic Reconstruction and Intrinsic Scene Modeling

Tuanfeng Y. Wang

Stefanos Zafeiriou

Anna Frühstück

248

5

0

19 Apr 2025

The Path to Reconciling Quality and Safety in Text-to-Image Generation: Dataset, Method, and Evaluation

The Path to Reconciling Quality and Safety in Text-to-Image Generation: Dataset, Method, and Evaluation

406

1

0

19 Apr 2025

Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis

Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis

388

1

0

19 Apr 2025

U-Shape Mamba: State Space Model for faster diffusion

U-Shape Mamba: State Space Model for faster diffusion

Tomaso Fontanini

Claudio Ferrari

Massimo Bertozzi

432

5

0

18 Apr 2025

Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing

Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing

291

1

0

18 Apr 2025

Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation

Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation

Fulvio Sanguigni

Marcella Cornia

200

3

0

18 Apr 2025

Probing and Inducing Combinational Creativity in Vision-Language Models

Probing and Inducing Combinational Creativity in Vision-Language Models

464

3

0

17 Apr 2025

MGT: Extending Virtual Try-Off to Multi-Garment Scenarios

MGT: Extending Virtual Try-Off to Multi-Garment Scenarios

271

0

0

17 Apr 2025

SkyReels-V2: Infinite-length Film Generative Model

SkyReels-V2: Infinite-length Film Generative Model

...

510

76

0

17 Apr 2025

The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation

The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video GenerationComputer Vision and Pattern Recognition (CVPR), 2025

488

6

0

16 Apr 2025

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual PerceptionInternational Conference on Learning Representations (ICLR), 2025

486

1

0

15 Apr 2025

ADT: Tuning Diffusion Models with Adversarial Supervision

ADT: Tuning Diffusion Models with Adversarial Supervision

347

3

0

15 Apr 2025

Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers

Hierarchical and Step-Layer-Wise Tuning of Attention Specialty for Multi-Instance Synthesis in Diffusion Transformers

416

1

0

14 Apr 2025

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

Ming-Ming Cheng

298

4

0

14 Apr 2025

H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models

H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models

Ivan Skorokhodov

Aliaksandr Siarohin

Sergey Tulyakov

377

5

0

14 Apr 2025

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

415

68

0

14 Apr 2025

Efficient Generative Model Training via Embedded Representation Warmup

Efficient Generative Model Training via Embedded Representation Warmup

479

0

0

14 Apr 2025

On Equivariance and Fast Sampling in Video Diffusion Models Trained with Warped Noise

On Equivariance and Fast Sampling in Video Diffusion Models Trained with Warped Noise

388

5

0

14 Apr 2025

BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning

BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning

Venkatesh Saligrama

311

1

0

13 Apr 2025

Flux Already Knows -- Activating Subject-Driven Image Generation without Training

Flux Already Knows -- Activating Subject-Driven Image Generation without Training

Stathi Fotiadis

308

9

0

12 Apr 2025

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

...

579

63

0

11 Apr 2025

DiverseFlow: Sample-Efficient Diverse Mode Coverage in Flows

DiverseFlow: Sample-Efficient Diverse Mode Coverage in FlowsComputer Vision and Pattern Recognition (CVPR), 2025

Mashrur M. Morshed

275

6

0

10 Apr 2025

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Ming-Ming Cheng

Ming-Ming Cheng

364

20

0

10 Apr 2025

PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering

PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text RenderingComputer Vision and Pattern Recognition (CVPR), 2025

347

21

0

09 Apr 2025

DyDiT++: Diffusion Transformers with Timestep and Spatial Dynamics for Efficient Visual Generation

DyDiT++: Diffusion Transformers with Timestep and Spatial Dynamics for Efficient Visual Generation

587

3

0

09 Apr 2025

TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis

TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis

278

3

0

08 Apr 2025

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

298

6

0

08 Apr 2025

Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision

Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision

320

10

0

07 Apr 2025

Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing

Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing

242

0

0

07 Apr 2025

CREA: A Collaborative Multi-Agent Framework for Creative Image Editing and Generation

CREA: A Collaborative Multi-Agent Framework for Creative Image Editing and Generation

Kavana Venkatesh

351

3

0

07 Apr 2025

Gaussian Mixture Flow Matching Models

Gaussian Mixture Flow Matching Models

Leonidas Guibas

Gordon Wetzstein

460

8

0

07 Apr 2025

FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

214

43

0

07 Apr 2025

DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Maksim Siniukov

Ashutosh Chaubey

Mohammad Soleymani

316

3

0

05 Apr 2025

SDEIT: Semantic-Driven Electrical Impedance Tomography

SDEIT: Semantic-Driven Electrical Impedance Tomography

267

0

0

05 Apr 2025

Detection Limits and Statistical Separability of Tree Ring Watermarks in Rectified Flow-based Text-to-Image Generation Models

Detection Limits and Statistical Separability of Tree Ring Watermarks in Rectified Flow-based Text-to-Image Generation Models

Aakash Kumar Singh

232

0

0

04 Apr 2025

Conditioning Diffusions Using Malliavin Calculus

Conditioning Diffusions Using Malliavin Calculus

Jakiw Pidstrigach

Elizabeth Baker

Carles Domingo-Enrich

George Deligiannidis

Nikolas Nüsken

350

2

0

04 Apr 2025

Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation

Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation

321

9

0

03 Apr 2025

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

524

54

0

03 Apr 2025

Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis

Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2025

373

5

0

02 Apr 2025

FlowR: Flowing from Sparse to Dense 3D Reconstructions

FlowR: Flowing from Sparse to Dense 3D Reconstructions

Samuel Rota Buló

Nikhil Varma Keetha

Jonathon Luiten

Peter Kontschieder

373

7

0

02 Apr 2025

Watermarking for AI Content Detection: A Review on Text, Visual, and Audio Modalities

Watermarking for AI Content Detection: A Review on Text, Visual, and Audio Modalities

256

2

0

02 Apr 2025

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

1.0K

22

0

02 Apr 2025

Distilling Multi-view Diffusion Models into 3D Generators

Distilling Multi-view Diffusion Models into 3D Generators

541

1

0

01 Apr 2025

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

655

16

0

30 Mar 2025

DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

Zheng-Peng Duan

413

15

0

30 Mar 2025

A Large Scale Analysis of Gender Biases in Text-to-Image Generative Models

A Large Scale Analysis of Gender Biases in Text-to-Image Generative Models

Leander Girrbach

Genevieve Smith

396

7

0

30 Mar 2025

FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning

FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning

439

16

0

30 Mar 2025

1 2 3...16 17 18...23 24 25

Page 17 of 25

Pageof 25