Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

22 June 2022

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation"

50 / 1,010 papers shown

X&Fuse: Fusing Visual Information in Text-to-Image Generation

02 Mar 2023

Understanding Diffusion Objectives as the ELBO with Simple Data AugmentationNeural Information Processing Systems (NeurIPS), 2023

Diederik P. Kingma

Ruiqi Gao

DiffM

765

238

01 Mar 2023

StraIT: Non-autoregressive Generation with Stratified Image Transformer

Yuanzhen Li

221

01 Mar 2023

OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System

...

Yibing Zhan

Jing Zhang

Chaoyue Wang

Dacheng Tao

232

01 Mar 2023

Benchmarking Deepart Detection

Yabin Wang

Zhiwu Huang

Xiaopeng Hong

200

28 Feb 2023

Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling MethodsEuropean Conference on Computer Vision (ECCV), 2023

528

28 Feb 2023

ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image GenerationIEEE International Conference on Computer Vision (ICCV), 2023

Lei Zhang

303

429

27 Feb 2023

Encoder-based Domain Tuning for Fast Personalization of Text-to-Image ModelsACM Transactions on Graphics (TOG), 2023

Daniel Cohen-Or

459

238

23 Feb 2023

Aligning Text-to-Image Models using Human Feedback

Pieter Abbeel

339

385

23 Feb 2023

Teaching CLIP to Count to TenIEEE International Conference on Computer Vision (ICCV), 2023

472

161

23 Feb 2023

Controlled and Conditional Text to Image Generation with Diffusion Prior

...

270

23 Feb 2023

Learning 3D Photography Videos via Self-supervised Diffusion on Single ImagesInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

...

Fan Yang

Zicheng Liu

196

21 Feb 2023

Composer: Creative and Controllable Image Synthesis with Composable ConditionsInternational Conference on Machine Learning (ICML), 2023

Jingren Zhou

423

355

20 Feb 2023

Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate FairytalesItalian Research Conference on Digital Library Management Systems (IRCDL), 2023

Martin Ruskov

DiffM

220

17 Feb 2023

Text-driven Visual Synthesis with Latent Diffusion Prior

224

16 Feb 2023

Exploring the Representation Manifolds of Stable Diffusion Through the Lens of Intrinsic Dimension

156

16 Feb 2023

DIFUSCO: Graph-based Diffusion Solvers for Combinatorial OptimizationNeural Information Processing Systems (NeurIPS), 2023

Zhiqing Sun

Yiming Yang

DiffM

321

209

16 Feb 2023

PRedItOR: Text Guided Image Editing with Diffusion Prior

251

15 Feb 2023

Self-Organising Neural Discrete Representation Learning à la KohonenInternational Conference on Artificial Neural Networks (ICANN), 2023

310

15 Feb 2023

VQ3D: Learning a 3D-Aware Generative Model on ImageNetIEEE International Conference on Computer Vision (ICCV), 2023

Charles Herrmann

Jiajun Wu

207

14 Feb 2023

Multi-modal Machine Learning in Engineering Design: A Review and Future DirectionsJournal of Computing and Information Science in Engineering (JCISE), 2023

356

14 Feb 2023

From paintbrush to pixel: A review of deep neural networks in AI-generated art

Anne-Sofie Maerten

Derya Soydaner

280

14 Feb 2023

MaskSketch: Unpaired Structure-guided Masked Image GenerationComputer Vision and Pattern Recognition (CVPR), 2023

204

10 Feb 2023

Scaling Vision Transformers to 22 Billion ParametersInternational Conference on Machine Learning (ICML), 2023

...

407

774

10 Feb 2023

Noise2Music: Text-conditioned Music Generation with Diffusion Models

...

353

244

08 Feb 2023

Zero-shot Generation of Coherent Storybook from Plain Text Story using Diffusion Models

Hyeonho Jeong

Gihyun Kwon

Jong Chul Ye

172

08 Feb 2023

Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness

299

169

07 Feb 2023

Zero-shot Image-to-Image TranslationInternational Conference on Computer Graphics and Interactive Techniques (SIGGRAPH), 2023

Jun-Yan Zhu

309

561

06 Feb 2023

Structure and Content-Guided Video Synthesis with Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

380

665

06 Feb 2023

Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion

Zuopeng Yang

230

05 Feb 2023

Dreamix: Video Diffusion Models are General Video Editors

Yossi Matias

Yael Pritch

Yaniv Leviathan

Yedid Hoshen

DiffM VGen

311

216

02 Feb 2023

Language Quantized AutoEncoders: Towards Unsupervised Text-Image AlignmentNeural Information Processing Systems (NeurIPS), 2023

Hao Liu

Wilson Yan

Pieter Abbeel

254

02 Feb 2023

Grounding Language Models to Images for Multimodal Inputs and OutputsInternational Conference on Machine Learning (ICML), 2023

Jing Yu Koh

Ruslan Salakhutdinov

Daniel Fried

MLLM

444

150

31 Jan 2023

Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion ModelsACM Transactions on Graphics (TOG), 2023

Hila Chefer

Yuval Alaluf

Yael Vinker

Lior Wolf

Daniel Cohen-Or

DiffM

582

669

31 Jan 2023

GALIP: Generative Adversarial CLIPs for Text-to-Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2023

239

137

30 Jan 2023

MusicLM: Generating Music From Text

...

747

601

26 Jan 2023

Text-To-4D Dynamic Scene GenerationInternational Conference on Machine Learning (ICML), 2023

...

Andrea Vedaldi

Devi Parikh

Justin Johnson

Yaniv Taigman

DiffM

228

209

26 Jan 2023

Simple diffusion: End-to-end diffusion for high resolution imagesInternational Conference on Machine Learning (ICML), 2023

Emiel Hoogeboom

Jonathan Heek

Tim Salimans

400

352

26 Jan 2023

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image SynthesisInternational Conference on Machine Learning (ICML), 2023

325

266

23 Jan 2023

Regeneration Learning: A Learning Paradigm for Data GenerationAAAI Conference on Artificial Intelligence (AAAI), 2023

Xu Tan

Jiang Bian

146

21 Jan 2023

GLIGEN: Open-Set Grounded Text-to-Image GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Jianwei Yang

436

800

17 Jan 2023

Open-vocabulary Object Segmentation with Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

331

12 Jan 2023

Latent Autoregressive Source SeparationAAAI Conference on Artificial Intelligence (AAAI), 2023

173

09 Jan 2023

MAQA: A Multimodal QA Benchmark for Negation

Dima Kuzmin

210

09 Jan 2023

Self-Supervised Video Forensics by Audio-Visual Anomaly DetectionComputer Vision and Pattern Recognition (CVPR), 2023

Chao Feng

Ziyang Chen

Andrew Owens

272

112

04 Jan 2023

Attribute-Centric Compositional Text-to-Image GenerationInternational Journal of Computer Vision (IJCV), 2023

245

04 Jan 2023

Muse: Text-To-Image Generation via Masked Generative TransformersInternational Conference on Machine Learning (ICML), 2023

...

William T. Freeman

Michael Rubinstein

Yuanzhen Li

Dilip Krishnan

DiffM

488

697

02 Jan 2023

Multi-Realism Image Compression with a Conditional GeneratorComputer Vision and Pattern Recognition (CVPR), 2022

254

28 Dec 2022

Do DALL-E and Flamingo Understand Each Other?IEEE International Conference on Computer Vision (ICCV), 2022

Jindong Gu

226

23 Dec 2022

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video GenerationIEEE International Conference on Computer Vision (ICCV), 2022

Ying Shan

352

1,011

22 Dec 2022