Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

22 June 2022

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation"

50 / 1,010 papers shown

A Gauss-Newton Approach for Min-Max Optimization in Generative Adversarial NetworksIEEE International Joint Conference on Neural Network (IJCNN), 2024

Pratik Jawanpuria

198

10 Apr 2024

StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion

286

09 Apr 2024

YaART: Yet Another ART Rendering Technology

...

211

08 Apr 2024

InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization

381

06 Apr 2024

Aligning Diffusion Models by Optimizing Human Utility

Shufan Li

Konstantinos Kallidromitis

Akash Gokul

Yusuke Kato

Kazuki Kozuka

297

06 Apr 2024

Idea-2-3D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs

Xiang Li

Hao Zhao

400

05 Apr 2024

Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2)

Michael Stephen Saxon

296

05 Apr 2024

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model PerformanceNeural Information Processing Systems (NeurIPS), 2024

Vishaal Udandarao

Christian Schroeder de Witt

705

04 Apr 2024

Many-to-many Image Generation with Auto-regressive Diffusion Models

283

03 Apr 2024

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale PredictionNeural Information Processing Systems (NeurIPS), 2024

410

715

03 Apr 2024

Confidence-aware Reward Optimization for Fine-tuning Text-to-Image ModelsInternational Conference on Learning Representations (ICLR), 2024

Krishnamurthy Dvijotham

Jinwoo Shin

Kimin Lee

EGVM

178

02 Apr 2024

MotionChain: Conversational Motion Controllers via Multimodal PromptsEuropean Conference on Computer Vision (ECCV), 2024

274

02 Apr 2024

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

304

01 Apr 2024

Evaluating Text-to-Visual Generation with Image-to-Text Generation

Graham Neubig

450

342

01 Apr 2024

A Unified and Interpretable Emotion Representation and Expression Generation

Luc Van Gool

151

01 Apr 2024

Uncovering the Text Embedding in Text-to-Image Diffusion Models

Huikang Yu

Hao Luo

Fan Wang

Feng Zhao

157

01 Apr 2024

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

Yu Qiao

Ping Luo

Rongrong Ji

LM&Ro LLMAG VLM

127

31 Mar 2024

BAMM: Bidirectional Autoregressive Motion Model

Ekkasit Pinyoanuntapong

Muhammad Usama Saleem

328

28 Mar 2024

DreamSalon: A Staged Diffusion Framework for Preserving Identity-Context in Editable Face Generation

Mengmeng Wang

Guang Dai

Jingdong Wang

221

28 Mar 2024

Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation

342

28 Mar 2024

TextCraftor: Your Text Encoder Can be Image Quality Controller

301

27 Mar 2024

Attention Calibration for Disentangled Text-to-Image Personalization

357

27 Mar 2024

Improving Text-to-Image Consistency via Automatic Prompt Optimization

Adriana Romero Soriano

M. Drozdzal

279

26 Mar 2024

Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation

255

25 Mar 2024

Generative Active Learning for Image Synthesis PersonalizationACM Multimedia (MM), 2024

Jinlin Wu

Zhen Lei

292

22 Mar 2024

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model

S. Han

Joohee Kim

DiffM CLIP

187

22 Mar 2024

When Do We Not Need Larger Vision Models?

407

19 Mar 2024

Can AI Outperform Human Experts in Creating Social Media Creatives?

Eunkyung Park

Raymond K. Wong

Junbum Kwon

210

19 Mar 2024

Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion DistillationACM SIGGRAPH Conference and Exhibition on Computer Graphics and Interactive Techniques in Asia (SIGGRAPH Asia), 2024

353

221

18 Mar 2024

LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion ModelEuropean Conference on Computer Vision (ECCV), 2024

Runhu Huang

Kaixin Cai

Jianhua Han

Xiaodan Liang

Renjing Pei

Guansong Lu

Songcen Xu

Wei Zhang

Hang Xu

DiffM

179

18 Mar 2024

LogicalDefender: Discovering, Extracting, and Utilizing Common-Sense Knowledge

158

18 Mar 2024

Automated data processing and feature engineering for deep learning and big data applications: a surveyJournal of Information and Intelligence (JII), 2024

A. Mumuni

F. Mumuni

TPM

267

129

18 Mar 2024

Reward Guided Latent Consistency Distillation

212

16 Mar 2024

Desigen: A Pipeline for Controllable Design Template GenerationComputer Vision and Pattern Recognition (CVPR), 2024

Yu Qiao

Tong Zhang

202

14 Mar 2024

Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

Yue Ma

Hongfa Wang

...

Wei Liu

277

13 Mar 2024

AesopAgent: Agent-driven Evolutionary System on Story-to-Video Production

...

165

12 Mar 2024

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated DataNeural Information Processing Systems (NeurIPS), 2024

Mohit Bansal

250

11 Mar 2024

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Yuhao Jia

Wenhan Tan

DiffM

314

11 Mar 2024

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Wangmeng Zuo

220

08 Mar 2024

Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image GenerationComputer Vision and Pattern Recognition (CVPR), 2024

Hao Li

249

08 Mar 2024

ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

284

246

08 Mar 2024

CogView3: Finer and Faster Text-to-Image Generation via Relay DiffusionEuropean Conference on Computer Vision (ECCV), 2024

Xiaotao Gu

Yuxiao Dong

Ming Ding

Jie Tang

DiffM

254

08 Mar 2024

StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models

257

08 Mar 2024

Pix2Gif: Motion-Guided Diffusion for GIF GenerationEuropean Conference on Computer Vision (ECCV), 2024

Hitesh Kandala

Jianfeng Gao

Jianwei Yang

VGen DiffM

232

07 Mar 2024

CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?International Conference on Learning Representations (ICLR), 2024

Ibrahim Alabdulmohsin

211

07 Mar 2024

Discriminative Probing and Tuning for Text-to-Image Generation

374

07 Mar 2024

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

...

2.3K

2,724

05 Mar 2024

OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

298

130

04 Mar 2024

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

...

Hsin-Ying Lee

Ming-Hsuan Yang

366

338

29 Feb 2024

DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Models

313

27 Feb 2024