Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2206.10789
Cited By

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

22 June 2022

Vijay Vasudevan

Burcu Karagol Ayan

Jason Baldridge

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation"

50 / 1,010 papers shown

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

306

7

0

02 Oct 2025

JEPA-T: Joint-Embedding Predictive Architecture with Text Fusion for Image Generation

JEPA-T: Joint-Embedding Predictive Architecture with Text Fusion for Image Generation

...

108

0

0

01 Oct 2025

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

143

1

0

30 Sep 2025

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

116

9

0

30 Sep 2025

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

142

0

0

30 Sep 2025

Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

Jia Jun Cheng Xian

133

1

0

30 Sep 2025

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

Harold Haodong Chen

136

1

0

30 Sep 2025

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

212

4

0

29 Sep 2025

STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation

STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation

122

4

0

29 Sep 2025

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Peter Holderrieth

Ricky T. Q. Chen

177

1

0

29 Sep 2025

Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models

Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models

116

0

0

28 Sep 2025

Towards Fine-Grained Text-to-3D Quality Assessment: A Benchmark and A Two-Stage Rank-Learning Metric

Towards Fine-Grained Text-to-3D Quality Assessment: A Benchmark and A Two-Stage Rank-Learning Metric

238

0

0

28 Sep 2025

HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

Seyedmorteza Sadat

Romann M. Weber

164

0

0

26 Sep 2025

Pushing Toward the Simplex Vertices: A Simple Remedy for Code Collapse in Smoothed Vector Quantization

Pushing Toward the Simplex Vertices: A Simple Remedy for Code Collapse in Smoothed Vector Quantization

178

0

0

26 Sep 2025

SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

Hmrishav Bandyopadhyay

Reshinth Adithyan

313

2

0

25 Sep 2025

LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning

LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning

Evren Körpeoglu

174

1

0

24 Sep 2025

MEF: A Systematic Evaluation Framework for Text-to-Image Models

MEF: A Systematic Evaluation Framework for Text-to-Image Models

158

0

0

22 Sep 2025

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

...

Zhengdong Zhang

205

4

0

19 Sep 2025

PolyJuice Makes It Real: Black-Box, Universal Red Teaming for Synthetic Image Detectors

PolyJuice Makes It Real: Black-Box, Universal Red Teaming for Synthetic Image Detectors

Sepehr Dehdashtian

Mashrur M. Morshed

Jacob H. Seidman

192

0

0

19 Sep 2025

Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration

Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration

Rajarishi Sinha

Sercan Ö. Arık

246

4

0

12 Sep 2025

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

EGVM VGen ReLM LRM

230

14

0

11 Sep 2025

Discovering Divergent Representations between Text-to-Image Models

Discovering Divergent Representations between Text-to-Image Models

Joseph E. Gonzalez

Fabian Caba Heilbron

Bryan C. Russell

126

0

0

10 Sep 2025

SuMa: A Subspace Mapping Approach for Robust and Effective Concept Erasure in Text-to-Image Diffusion Models

SuMa: A Subspace Mapping Approach for Robust and Effective Concept Erasure in Text-to-Image Diffusion Models

124

0

0

06 Sep 2025

FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation

FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation

142

1

0

01 Sep 2025

T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

167

14

0

24 Aug 2025

Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score

Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score

Syed Muhmmad Israr

152

0

0

18 Aug 2025

DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models

DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models

149

0

0

17 Aug 2025

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

...

202

22

0

14 Aug 2025

OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better

OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better

...

Ming-Ming Cheng

204

1

0

13 Aug 2025

Spatial-Temporal Multi-Scale Quantization for Flexible Motion Generation

Spatial-Temporal Multi-Scale Quantization for Flexible Motion Generation

159

1

0

12 Aug 2025

Per-Query Visual Concept Learning

Per-Query Visual Concept Learning

114

0

0

12 Aug 2025

Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing

Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing

121

4

0

11 Aug 2025

Grouped Speculative Decoding for Autoregressive Image Generation

Grouped Speculative Decoding for Autoregressive Image Generation

100

3

0

11 Aug 2025

Consistent and Controllable Image Animation with Motion Linear Diffusion Transformers

Consistent and Controllable Image Animation with Motion Linear Diffusion Transformers

160

0

0

10 Aug 2025

AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning

AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning

148

11

0

09 Aug 2025

NEP: Autoregressive Image Editing via Next Editing Token Prediction

NEP: Autoregressive Image Editing via Next Editing Token Prediction

146

2

0

08 Aug 2025

Towards Robust Red-Green Watermarking for Autoregressive Image Generators

Towards Robust Red-Green Watermarking for Autoregressive Image Generators

Denis Lukovnikov

Andreas Müller

215

0

0

08 Aug 2025

Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

163

0

0

06 Aug 2025

AuthPrint: Fingerprinting Generative Models Against Malicious Model Providers

AuthPrint: Fingerprinting Generative Models Against Malicious Model Providers

301

2

0

06 Aug 2025

Diffusion Models with Adaptive Negative Sampling Without External Resources

Diffusion Models with Adaptive Negative Sampling Without External Resources

Nuno Vasconcelos

163

0

0

05 Aug 2025

LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation

LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation

103

0

0

05 Aug 2025

ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation

ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation

159

0

0

01 Aug 2025

Steering Guidance for Personalized Text-to-Image Diffusion Models

Steering Guidance for Personalized Text-to-Image Diffusion Models

195

1

0

01 Aug 2025

LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs

LLMControl: Grounded Control of Text-to-Image Diffusion-based Synthesis with Multimodal LLMs

181

0

0

26 Jul 2025

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment

240

6

0

25 Jul 2025

Identifying Prompted Artist Names from Generated Images

Identifying Prompted Artist Names from Generated Images

Aaron Hertzmann

174

0

0

24 Jul 2025

Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis

Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis

272

11

0

24 Jul 2025

Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling

Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling

...

208

24

0

23 Jul 2025

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

191

4

0

11 Jul 2025

Divergence Minimization Preference Optimization for Diffusion Model Alignment

Divergence Minimization Preference Optimization for Diffusion Model Alignment

269

2

0

10 Jul 2025

1 2 3 4 5...19 20 21