Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

5 August 2024

Shitian Zhao

Xinyue Li

Qi Qin

Yu Qiao

Hongsheng Li

Peng Gao

MLLM

ArXiv PDF HTML

Papers citing "Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining"

46 / 46 papers shown

Title
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 65 1 0 24 Apr 2025
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 28 1 0 20 Apr 2025
Personalized Text-to-Image Generation with Auto-Regressive Models Kaiyue Sun Xian Liu Yao Teng Xihui Liu 28 0 0 17 Apr 2025
Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing Taihang Hu Linxuan Li Kai Wang Yaxing Wang Jian Yang Ming-Ming Cheng DiffM VGen 18 0 0 14 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 26 0 0 11 Apr 2025
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning Zhong-Yu Li Ruoyi Du Juncheng Yan Le Zhuo Zhen Li Peng Gao Zhanyu Ma Ming-Ming Cheng VLM 66 2 0 10 Apr 2025
Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation Enming Zhang Z. Li Yanru Wu J. Wang Yang Tan Ruizhe Zhao Guan Wang Yang Li ViT 21 0 0 08 Apr 2025
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding Yang Jiao Haibo Qiu Zequn Jie S. Chen Jingjing Chen Lin Ma Yu Jiang 18 2 0 06 Apr 2025
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning Hang Guo Yawei Li Taolin Zhang J. Wang Tao Dai Shu-Tao Xia Luca Benini 50 1 0 30 Mar 2025
A Large Scale Analysis of Gender Biases in Text-to-Image Generative Models Leander Girrbach Stephan Alaniz Genevieve Smith Zeynep Akata 37 0 0 30 Mar 2025
Unified Multimodal Discrete Diffusion Alexander Swerdlow Mihir Prabhudesai Siddharth Gandhi Deepak Pathak Katerina Fragkiadaki DiffM 58 0 0 26 Mar 2025
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models Alex Jinpeng Wang Linjie Li Z. Yang Lijuan Wang Min Li DiffM 63 0 0 26 Mar 2025
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention Xuan Ju Weicai Ye Quande Liu Qiulin Wang Xintao Wang Pengfei Wan Di Zhang Kun Gai Qiang Xu VGen 36 1 0 25 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 37 0 0 21 Mar 2025
Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models Hongyang Wei S. Liu C. Yuan L. Zhang 37 0 0 14 Mar 2025
Proxy-Tuning: Tailoring Multimodal Autoregressive Models for Subject-Driven Image Generation Yi Wu Lingting Zhu Lei Liu Wandi Qiao Ziqiang Li Lequan Yu Bin Li DiffM 42 0 0 13 Mar 2025
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction Xuying Zhang Yutong Liu Yangguang Li Renrui Zhang Y. Liu ... Wanli Ouyang Zhiwei Xiong Peng Gao Qibin Hou Ming-Ming Cheng 81 3 0 13 Mar 2025
Neighboring Autoregressive Modeling for Efficient Visual Generation Yefei He Yuanyu He Shaoxuan He Feng Chen Hong Zhou K. Zhang Bohan Zhuang 41 1 0 12 Mar 2025
V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation Guiwei Zhang Tianyu Zhang Mohan Zhou Yalong Bai Biye Li 54 0 0 10 Mar 2025
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment Xing Xie Jiawei Liu Ziyue Lin Huijie Fan Zhi-Long Han Yandong Tang Liangqiong Qu 31 0 0 10 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 54 1 0 03 Mar 2025
FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction Siyu Jiao Gengwei Zhang Yinlong Qian Jiancheng Huang Yao Zhao Humphrey Shi Lin Ma Y. X. Wei Zequn Jie VLM 31 1 0 27 Feb 2025
LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models Sihwan Park Doohyuk Jang Sungyub Kim Souvik Kundu Eunho Yang 57 0 0 10 Feb 2025
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths Weijia Mao Z. Yang Mike Zheng Shou MoE 53 0 0 10 Feb 2025
Parallelized Autoregressive Visual Generation Y. Wang Shuhuai Ren Zhijie Lin Yujin Han Haoyuan Guo Zhenheng Yang Difan Zou Jiashi Feng Xihui Liu VGen 79 11 0 19 Dec 2024
E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling Zhihang Yuan Yuzhang Shang H. Zhang Tongcheng Fang Rui Xie Bingxin Xu Yan Yan Shengen Yan Guohao Dai Yu Wang DiffM 84 1 0 18 Dec 2024
XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation X. Li Kai Qiu H. Chen Jason Kuen Jiuxiang Gu J. Wang Zhe-nan Lin Bhiksha Raj VLM 105 3 0 02 Dec 2024
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation Bolin Lai F. Xu Miao Liu Xiaoliang Dai Nikhil Mehta ... Zeyi Huang James M. Rehg Sangmin Lee Ning Zhang Tong Xiao 66 2 0 02 Dec 2024
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis Anton Voronov Denis Kuznedelev Mikhail Khoroshikh Valentin Khrulkov Dmitry Baranchuk 87 2 0 02 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 92 5 0 28 Nov 2024
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient Zigeng Chen Xinyin Ma Gongfan Fang Xinchao Wang VLM 81 4 0 26 Nov 2024
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE Yongwei Chen Yushi Lan Shangchen Zhou Tengfei Wang Xingang Pan 87 5 0 25 Nov 2024
Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer Shitong Shao Zikai Zhou Tian Ye Lichen Bai Zhiqiang Xu Zeke Xie DiffM 42 0 0 16 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 40 9 0 08 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 38 3 0 29 Oct 2024
Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling Wenze Liu Le Zhuo Yi Xin Sheng Xia Peng Gao Xiangyu Yue 21 5 0 14 Oct 2024
CAR: Controllable Autoregressive Modeling for Visual Generation Ziyu Yao Jialin Li Yifeng Zhou Yong Liu Xi Jiang Chengjie Wang Feng Zheng Yuexian Zou Lei Li DiffM 33 1 0 07 Oct 2024
ControlAR: Controllable Image Generation with Autoregressive Models Zongming Li Tianheng Cheng Shoufa Chen Peize Sun Haocheng Shen Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang DiffM 126 14 0 03 Oct 2024
ImageFolder: Autoregressive Image Generation with Folded Tokens Xiang Li Kai Qiu Hao Chen Jason Kuen Jiuxiang Gu Bhiksha Raj Zhe-nan Lin VLM 26 17 0 02 Oct 2024
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding Yao Teng Han Shi Xian Liu Xuefei Ning Guohao Dai Yu Wang Zhenguo Li Xihui Liu 40 10 0 02 Oct 2024
The Platonic Representation Hypothesis Minyoung Huh Brian Cheung Tongzhou Wang Phillip Isola 72 107 0 13 May 2024
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-AI Xiao Bi : Xiao Bi Deli Chen Guanting Chen ... Yao Zhao Shangyan Zhou Shunfeng Zhou Qihao Zhu Yuheng Zou LRM ALM 125 298 0 05 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 126 895 0 21 Dec 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 198 318 0 08 Mar 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 515 0 02 Jan 2023
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 3,790 0 24 Feb 2021