Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

22 June 2022

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation"

50 / 1,010 papers shown

Exploring the Potentials and Challenges of Deep Generative Models in Product Design Conception

Phillip Mueller

Lars Mikelsons

AI4CE

390

15 Jul 2024

Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey

Chenyu Zhang

Mingwang Hu

Wenhui Li

Lanjun Wang

213

10 Jul 2024

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis

Xierui Wang

...

Haoyuan Li

Hao Jiang

238

10 Jul 2024

ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction

Kai Han

Kwan-Yee K. Wong

341

09 Jul 2024

HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance

207

09 Jul 2024

Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning

245

09 Jul 2024

An Improved Method for Personalizing Diffusion Models

217

07 Jul 2024

DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

318

03 Jul 2024

...

Natalia Neverova

242

02 Jul 2024

Magic Insert: Style-Aware Drag-and-Drop

285

02 Jul 2024

Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects

Andrea Vedaldi

Natalia Neverova

Oran Gafni

282

02 Jul 2024

SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules

Lingyun Yang

...

Wei Wang

167

02 Jul 2024

No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models

374

02 Jul 2024

MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis

411

02 Jul 2024

Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

343

27 Jun 2024

On Discrete Prompt Optimization for Diffusion Models

Boqing Gong

269

27 Jun 2024

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

William Berman

A. Peysakhovich

280

26 Jun 2024

ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

Li Yuan

368

26 Jun 2024

Aligning Diffusion Models with Noise-Conditioned Perception

Alexander Gambashidze

Anton Kulikov

Yuriy Sosnin

Ilya Makarov

325

25 Jun 2024

Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation

Katherine M. Collins

...

Adrian Weller

Krishnamurthy Dvijotham

EGVM

188

24 Jun 2024

EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

Cheng Zhang

Hao Li

385

24 Jun 2024

DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

Yuang Peng

459

24 Jun 2024

Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification

Honori Udo

Takafumi Koshinaka

VLM

184

22 Jun 2024

MetaGreen: Meta-Learning Inspired Transformer Selection for Green Semantic Communication

Shubhabrata Mukherjee

Cory Beard

Sejun Song

153

22 Jun 2024

Evaluating Numerical Reasoning in Text-to-Image Models

Su Wang

457

20 Jun 2024

GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation

...

362

19 Jun 2024

Leveraging Large Language Models for Patient Engagement: The Power of Conversational AI in Digital HealthInternational Conference on Digital Health (ICDH), 2024

Huamin Chen

203

19 Jun 2024

ARTIST: Improving the Generation of Text-rich Images by Disentanglement

Tong Yu

Tong Sun

255

17 Jun 2024

Large Scale Transfer Learning for Tabular Data via Language Modeling

Josh Gardner

Juan C. Perdomo

Ludwig Schmidt

LMTD

277

17 Jun 2024

Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

Heng Huang

441

17 Jun 2024

A Comprehensive Taxonomy and Analysis of Talking Head Synthesis: Techniques for Portrait Generation, Driving Mechanisms, and Editing

350

15 Jun 2024

Composing Parts for Expressive Object GenerationComputer Vision and Pattern Recognition (CVPR), 2024

369

14 Jun 2024

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

Oğuzhan Fatih Kar

Mingfei Gao

271

13 Jun 2024

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

Junke Wang

Yu-Gang Jiang

307

13 Jun 2024

Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

Jiuxiang Gu

Zichao Wang

Xin Eric Wang

Tong Sun

DiffM

198

13 Jun 2024

TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation

Weixi Feng

Jiachen Li

Michael Stephen Saxon

Tsu-Jui Fu

Wenhu Chen

William Yang Wang

EGVM VGen

238

12 Jun 2024

FakeInversion: Learning to Detect Images from Unseen Text-to-Image Models by Inverting Stable Diffusion

268

12 Jun 2024

What If We Recaption Billions of Web Images with LLaMA-3?

Xianhang Li

Haoqin Tu

Mude Hui

Zeyu Wang

Bingchen Zhao

...

Jieru Mei

Cihang Xie

289

12 Jun 2024

PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences

Daiwei Chen

Yi Chen

Aniket Rege

Ramya Korlakai Vinayak

294

12 Jun 2024

An Image is Worth 32 Tokens for Reconstruction and Generation

Daniel Cremers

391

187

11 Jun 2024

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Yi Jiang

Bingyue Peng

543

540

10 Jun 2024

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

240

10 Jun 2024

OmniControlNet: Dual-stage Integration for Conditional Image Generation

Zeyuan Chen

Zhuowen Tu

292

09 Jun 2024

Revisiting Non-Autoregressive Transformers for Efficient Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2024

Yulin Wang

Zhiyuan Liu

Gao Huang

284

08 Jun 2024

AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image GenerationNeural Information Processing Systems (NeurIPS), 2024

Fu Lee Wang

Qing Li

Xudong Mao

DiffM

295

07 Jun 2024

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Sanjoy Chowdhury

Sayan Nag

K. J. Joseph

Balaji Vasan Srinivasan

Dinesh Manocha

DiffM

234

07 Jun 2024

BitsFusion: 1.99 bits Weight Quantization of Diffusion ModelNeural Information Processing Systems (NeurIPS), 2024

Jian Ren

269

06 Jun 2024

ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise OptimizationNeural Information Processing Systems (NeurIPS), 2024

318

06 Jun 2024

Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis

238

06 Jun 2024

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

Zijian Chen

387

05 Jun 2024