Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2403.03206
Cited By

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

5 March 2024

Frederic Boesel

ArXiv (abs)PDF HTML HuggingFace (68 upvotes)

Papers citing "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis"

50 / 1,247 papers shown

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

166

2

0

24 Dec 2025

Efficient Generative Transformer Operators For Million-Point PDEs

Efficient Generative Transformer Operators For Million-Point PDEs

Armand K. Koupai

Patrick Gallinari

61

0

0

04 Dec 2025

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

...

173

1

0

04 Dec 2025

SA-IQA: Redefining Image Quality Assessment for Spatial Aesthetics with Multi-Dimensional Rewards

SA-IQA: Redefining Image Quality Assessment for Spatial Aesthetics with Multi-Dimensional Rewards

140

0

0

04 Dec 2025

Refaçade: Editing Object with Given Reference Texture

Refaçade: Editing Object with Given Reference Texture

175

0

0

04 Dec 2025

Highly Efficient Test-Time Scaling for T2I Diffusion Models with Text Embedding Perturbation

Highly Efficient Test-Time Scaling for T2I Diffusion Models with Text Embedding Perturbation

123

0

0

03 Dec 2025

UniLight: A Unified Representation for Lighting

UniLight: A Unified Representation for Lighting

Iliyan Georgiev

Michael Fischer

Yannick Hold-Geoffroy

Jean-François Lalonde

Valentin Deschaintre

61

0

0

03 Dec 2025

WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens

WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens

239

0

0

02 Dec 2025

YingVideo-MV: Music-Driven Multi-Stage Video Generation

YingVideo-MV: Music-Driven Multi-Stage Video Generation

240

0

0

02 Dec 2025

Taming Camera-Controlled Video Generation with Verifiable Geometry Reward

Taming Camera-Controlled Video Generation with Verifiable Geometry Reward

154

0

0

02 Dec 2025

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

211

2

0

02 Dec 2025

PGP-DiffSR: Phase-Guided Progressive Pruning for Efficient Diffusion-based Image Super-Resolution

PGP-DiffSR: Phase-Guided Progressive Pruning for Efficient Diffusion-based Image Super-Resolution

166

0

0

02 Dec 2025

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

109

0

0

02 Dec 2025

Spatiotemporal Pyramid Flow Matching for Climate Emulation

Spatiotemporal Pyramid Flow Matching for Climate Emulation

Abdulaziz Alharbi

Nomin-Erdene Bayarsaikhan

Daniele Visioni

Duncan Watson-Parris

85

0

0

01 Dec 2025

DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

DiffM AI4TS VGen

147

0

0

01 Dec 2025

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges

Kevin David Hayes

Gowthami Somepalli

240

0

0

01 Dec 2025

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

...

156

0

0

01 Dec 2025

Reversible Inversion for Training-Free Exemplar-guided Image Editing

129

0

0

01 Dec 2025

Generative Video Motion Editing with 3D Point Tracks

DiffM VGen 3DPC

262

0

0

01 Dec 2025

FreqEdit: Preserving High-Frequency Features for Robust Multi-Turn Image Editing

126

0

0

01 Dec 2025

FRAMER: Frequency-Aligned Self-Distillation with Adaptive Modulation Leveraging Diffusion Priors for Real-World Image Super-Resolution

160

0

0

01 Dec 2025

ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers

ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers

95

0

0

01 Dec 2025

Dynamic-eDiTor: Training-Free Text-Driven 4D Scene Editing with Multimodal Diffusion Transformer

DiffM 3DGS VGen

145

0

0

30 Nov 2025

Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards

Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards

...

128

1

0

30 Nov 2025

Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models

Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models

373

0

0

29 Nov 2025

SAIDO: Generalizable Detection of AI-Generated Images via Scene-Aware and Importance-Guided Dynamic Optimization in Continual Learning

88

0

0

29 Nov 2025

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

117

0

0

29 Nov 2025

Guiding Visual Autoregressive Models through Spectrum Weakening

Guiding Visual Autoregressive Models through Spectrum Weakening

168

0

0

28 Nov 2025

Visual Generation Tuning

Visual Generation Tuning

302

0

0

28 Nov 2025

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

...

213

0

0

28 Nov 2025

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer

Jiangning Zhang

123

0

0

28 Nov 2025

Vision Bridge Transformer at Scale

Vision Bridge Transformer at Scale

100

0

0

28 Nov 2025

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

...

133

0

0

28 Nov 2025

Ovis-Image Technical Report

Ovis-Image Technical Report

...

532

0

0

28 Nov 2025

GOATex: Geometry & Occlusion-Aware Texturing

GOATex: Geometry & Occlusion-Aware Texturing

101

0

0

28 Nov 2025

Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models

Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models

81

0

0

27 Nov 2025

Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

129

0

0

27 Nov 2025

Generative Anchored Fields: Controlled Data Generation via Emergent Velocity Fields and Transport Algebra

Generative Anchored Fields: Controlled Data Generation via Emergent Velocity Fields and Transport Algebra

Deressa Wodajo Deressa

Glenn Van Wallendael

64

0

0

27 Nov 2025

Designing Instance-Level Sampling Schedules via REINFORCE with James-Stein Shrinkage

Designing Instance-Level Sampling Schedules via REINFORCE with James-Stein Shrinkage

Suraj Kothawade

114

0

0

27 Nov 2025

PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and Fuzz Optimization

PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and Fuzz Optimization

Bruno Castro da Silva

65

0

0

27 Nov 2025

StreamFlow: Theory, Algorithm, and Implementation for High-Efficiency Rectified Flow Generation

StreamFlow: Theory, Algorithm, and Implementation for High-Efficiency Rectified Flow Generation

Dimitris N. Metaxas

Dimitris N. Metaxas

154

1

0

27 Nov 2025

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation

Shubhankar Borse

Farzad Farhadzadeh

78

0

0

27 Nov 2025

Adversarial Flow Models

Adversarial Flow Models

153

0

0

27 Nov 2025

Inversion-Free Style Transfer with Dual Rectified Flows

Inversion-Free Style Transfer with Dual Rectified Flows

245

0

0

26 Nov 2025

Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

156

0

0

26 Nov 2025

MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

204

0

0

26 Nov 2025

MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

Vicky Kalogeiton

546

0

0

26 Nov 2025

3MDiT: Unified Tri-Modal Diffusion Transformer for Text-Driven Synchronized Audio-Video Generation

3MDiT: Unified Tri-Modal Diffusion Transformer for Text-Driven Synchronized Audio-Video Generation

Pilar Oplustil Gallegos

Ioannis Koutsoumpas

...

192

0

0

26 Nov 2025

Deep Parameter Interpolation for Scalar Conditioning

Deep Parameter Interpolation for Scalar Conditioning

Chicago Y. Park

Michael T. McCann

Cristina Garcia-Cardona

Ulugbek S. Kamilov

277

0

0

26 Nov 2025

FlowerDance: MeanFlow for Efficient and Refined 3D Dance Generation

FlowerDance: MeanFlow for Efficient and Refined 3D Dance Generation

198

1

0

26 Nov 2025

1 2 3 4...23 24 25