Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

22 June 2022

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation"

50 / 1,010 papers shown

"I Know It When I See It": Mood Spaces for Connecting and Expressing Visual Concepts

257

21 Apr 2025

SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization

197

20 Apr 2025

Personalized Text-to-Image Generation with Auto-Regressive Models

324

17 Apr 2025

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

408

15 Apr 2025

Autoregressive Distillation of Diffusion TransformersComputer Vision and Pattern Recognition (CVPR), 2025

309

15 Apr 2025

InstructEngine: Instruction-driven Text-to-Image Alignment

...

377

14 Apr 2025

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

363

10 Apr 2025

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

391

09 Apr 2025

Transfer between Modalities with MetaQueries

...

294

119

08 Apr 2025

CDM-QTA: Quantized Training Acceleration for Efficient LoRA Fine-Tuning of Diffusion ModelInternational Symposium on Circuits and Systems (ISCAS), 2025

120

08 Apr 2025

Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation

321

03 Apr 2025

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

341

03 Apr 2025

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

...

366

02 Apr 2025

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

349

02 Apr 2025

Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models

365

01 Apr 2025

Training-Free Text-Guided Image Editing with Visual Autoregressive Model

286

31 Mar 2025

Spatial Transport Optimization by Repositioning Attention Map for Training-Free Text-to-Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2025

276

28 Mar 2025

Evaluating Text-to-Image and Text-to-Video Synthesis with a Conditional Fréchet Distance

323

27 Mar 2025

Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation

Qi Si

Bo Wang

Zhao Zhang

331

26 Mar 2025

Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models

290

26 Mar 2025

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning

265

25 Mar 2025

InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model AlignmentComputer Vision and Pattern Recognition (CVPR), 2025

329

24 Mar 2025

ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation

299

22 Mar 2025

TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation

1.2K

22 Mar 2025

HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait SynthesisComputer Vision and Pattern Recognition (CVPR), 2025

246

21 Mar 2025

Halton Scheduler For Masked Generative Image TransformerInternational Conference on Learning Representations (ICLR), 2025

266

21 Mar 2025

D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens

312

21 Mar 2025

Zero-Shot Styled Text Image Generation, but Make It AutoregressiveComputer Vision and Pattern Recognition (CVPR), 2025

325

21 Mar 2025

Scale-wise Distillation of Diffusion Models

287

20 Mar 2025

ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints

281

18 Mar 2025

Comp-Attn: Present-and-Align Attention for Compositional Video Generation

616

18 Mar 2025

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

344

17 Mar 2025

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

490

17 Mar 2025

Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers

Shiran Yuan

Hao Zhao

DiffM

329

17 Mar 2025

The Amazon Nova Family of Models: Technical Report and Model Card

...

278

17 Mar 2025

Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

...

316

17 Mar 2025

FedGAI: Federated Style Learning with Cloud-Edge Collaboration for Generative AI in Fashion Design

376

16 Mar 2025

BalancedDPO: Adaptive Multi-Metric Alignment

225

16 Mar 2025

LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching

238

16 Mar 2025

Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection

Shufan Li

Konstantinos Kallidromitis

341

15 Mar 2025

Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking

368

14 Mar 2025

FlowTok: Flowing Seamlessly Across Text and Image Tokens

527

13 Mar 2025

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

328

11 Mar 2025

Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

428

10 Mar 2025

LatexBlend: Scaling Multi-concept Customized Generation with Latent Textual BlendingComputer Vision and Pattern Recognition (CVPR), 2025

310

10 Mar 2025

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

...

380

10 Mar 2025

Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation

Amir Mohammad Izadi

Seyed Mohammad Hadi Hosseini

321

09 Mar 2025

X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation

565

08 Mar 2025

ROCM: RLHF on consistency models

Shivanshu Shekhar

Tong Zhang

203

08 Mar 2025

Frequency Autoregressive Image Generation with Continuous Tokens

256

07 Mar 2025