Scaling Autoregressive Models for Content-Rich Text-to-Image Generation

22 June 2022

ArXiv (abs)PDF HTML HuggingFace (4 upvotes)

Papers citing "Scaling Autoregressive Models for Content-Rich Text-to-Image Generation"

50 / 1,010 papers shown

Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection

Bhiksha Raj

247

04 Oct 2024

LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative DecodingInternational Conference on Learning Representations (ICLR), 2024

Eunho Yang

463

04 Oct 2024

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample OptimizationInternational Conference on Learning Representations (ICLR), 2024

Zichen Miao

Zhengyuan Yang

Kevin Lin

Ze Wang

Zicheng Liu

Lijuan Wang

Qiang Qiu

400

04 Oct 2024

CaLMFlow: Volterra Flow Matching using Causal Language Models

Shiyang Zhang

Daniel Levine

Ivan Vrkic

Marco Francesco Bressana

150

03 Oct 2024

ControlAR: Controllable Image Generation with Autoregressive ModelsInternational Conference on Learning Representations (ICLR), 2024

Xiaoxin Chen

Wenyu Liu

Xinggang Wang

DiffM

675

03 Oct 2024

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion ModelsInternational Conference on Learning Representations (ICLR), 2024

402

03 Oct 2024

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Yuqing Wang

Yang Zhao

375

03 Oct 2024

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image GenerationInternational Conference on Learning Representations (ICLR), 2024

Liang Chen

Sinan Tan

Yichi Zhang

Jinze Bai

Tianyu Liu

Baobao Chang

ViT

250

02 Oct 2024

Data Extrapolation for Text-to-image Generation on Small Datasets

Senmao Ye

Fei Liu

246

02 Oct 2024

Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi DecodingInternational Conference on Learning Representations (ICLR), 2024

Yu Wang

Zhenguo Li

Xihui Liu

380

02 Oct 2024

EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice RoutingInternational Conference on Learning Representations (ICLR), 2024

703

02 Oct 2024

MCGM: Mask Conditional Text-to-Image Generative Model

Leonardo Rossi

123

01 Oct 2024

CusConcept: Customized Visual Concept Decomposition with Diffusion ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Zhi Xu

Shaozhe Hao

Kai Han

DiffM

254

01 Oct 2024

Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models FunctionNeural Information Processing Systems (NeurIPS), 2024

293

30 Sep 2024

MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation

Wenchao Chen

Liqiang Niu

Ziyao Lu

Fandong Meng

Jie Zhou

Mamba

289

30 Sep 2024

Emu3: Next-Token Prediction is All You Need

Xinlong Wang

Xiaosong Zhang

Zhengxiong Luo

Quan-Sen Sun

Yufeng Cui

...

Xi Yang

Jingjing Liu

Yonghua Lin

Tiejun Huang

Zhongyuan Wang

MLLM

290

483

27 Sep 2024

Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey

464

26 Sep 2024

Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule

Hongtao Huang

Xiaojun Chang

Weitong Chen

317

26 Sep 2024

MonoFormer: One Transformer for Both Diffusion and Autoregression

Errui Ding

Yifan Sun

Xinyan Xiao

Jingdong Wang

DiffM

234

24 Sep 2024

MaskBit: Embedding-free Image Generation via Bit Tokens

Daniel Cremers

213

24 Sep 2024

TFG: Unified Training-Free Guidance for Diffusion ModelsNeural Information Processing Systems (NeurIPS), 2024

Yitao Liang

James Zou

193

24 Sep 2024

JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated ImagesNeural Information Processing Systems (NeurIPS), 2024

Zhecan Wang

Junzhang Liu

Chia-Wei Tang

Hani Alomari

Anushka Sivakumar

...

Haoxuan You

A. Ishmam

Kai-Wei Chang

Shih-Fu Chang

Chris Thomas

CoGe VLM

505

19 Sep 2024

Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through

f

-divergence MinimizationAAAI Conference on Artificial Intelligence (AAAI), 2024

Haoyuan Sun

Bo Xia

Yongzhe Chang

Xueqian Wang

EGVM

249

15 Sep 2024

TextureDiffusion: Target Prompt Disentangled Editing for Various Texture TransferIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

369

15 Sep 2024

MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery DetectionIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2024

313

15 Sep 2024

G3PT: Unleash the power of Autoregressive Modeling in 3D Generation via Cross-scale Querying TransformerInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Jinzhi Zhang

Feng Xiong

Mu Xu

260

10 Sep 2024

SongCreator: Lyrics-based Universal Song GenerationNeural Information Processing Systems (NeurIPS), 2024

Shun Lei

Zhiyong Wu

Helen Meng

285

09 Sep 2024

Vec2Face: Scaling Face Dataset Generation with Loosely Constrained VectorsInternational Conference on Learning Representations (ICLR), 2024

609

04 Sep 2024

Accurate Compression of Text-to-Image Diffusion Models via Vector Quantization

Denis Kuznedelev

Dan Alistarh

224

31 Aug 2024

AdaNAT: Exploring Adaptive Policy for Token-Based Image GenerationEuropean Conference on Computer Vision (ECCV), 2024

Yulin Wang

Jiayi Guo

Zhiyuan Liu

Yuan Yao

Gao Huang

349

31 Aug 2024

One-Shot Learning Meets Depth Diffusion in Multi-Object Videos

Anisha Jain

VGen DiffM MDE

138

29 Aug 2024

Are Pose Estimators Ready for the Open World? STAGE: Synthetic Data Generation Toolkit for Auditing 3D Human Pose Estimators

297

28 Aug 2024

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its TeacherEuropean Conference on Computer Vision (ECCV), 2024

T. Dao

Thuan Hoang Nguyen

T. Le

D. Vu

Khoi Nguyen

Cuong Pham

Anh Tran

DiffM

318

26 Aug 2024

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Lili Yu

265

291

20 Aug 2024

Quality Assessment in the Era of Large Models: A Survey

Zicheng Zhang

Guangtao Zhai

344

17 Aug 2024

Can Large Language Models Understand Symbolic Graphics Programs?International Conference on Learning Representations (ICLR), 2024

602

15 Aug 2024

One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-TuningPattern Recognition (Pattern Recogn.), 2024

280

06 Aug 2024

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Shitian Zhao

Xinyue Li

Qi Qin

Yu Qiao

Hongsheng Li

Peng Gao

MLLM

418

111

05 Aug 2024

LEGO: Self-Supervised Representation Learning for Scene Text Images

Yujin Ren

Jiaxin Zhang

Lianwen Jin

SSL

252

04 Aug 2024

Autonomous LLM-Enhanced Adversarial Attack for Text-to-MotionAAAI Conference on Artificial Intelligence (AAAI), 2024

289

01 Aug 2024

Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language ModelsInternational Conference on Learning Representations (ICLR), 2024

138

01 Aug 2024

Fine-gained Zero-shot Video Sampling

175

31 Jul 2024

MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training

Rivik Setty

Chengjin Xu

Vinay Setty

Jian Guo

273

31 Jul 2024

Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local SimilaritiesEuropean Conference on Computer Vision (ECCV), 2024

Lorenzo Baraldi

Lorenzo Baraldi

259

29 Jul 2024

Diffusion Models for Multi-Task Generative Modeling

224

24 Jul 2024

Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget

244

22 Jul 2024

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

373

22 Jul 2024

LSReGen: Large-Scale Regional Generator via Backward Guidance Framework

187

21 Jul 2024

Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives

D. Hagos

Rick Battle

Danda B. Rawat

LM&MA OffRL

490

20 Jul 2024

Safe-SD: Safe and Traceable Stable Diffusion with Text Prompt Trigger for Invisible Generative Watermarking

392

18 Jul 2024