Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

10 June 2024

Yi Jiang

Bingyue Peng

Papers citing "Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation"

50 / 177 papers shown

Title
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Qingfu Zhang Zhenan Sun Ying Shan MLLM VLM 51 0 0 08 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities X. Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 57 0 0 05 May 2025
Ming-Lite-Uni: Advancements in Unified Architecture for Natural Multimodal Interaction Biao Gong Cheng Zou Dandan Zheng Hu Yu Jingdong Chen ... Qingpei Guo Rui Liu Weilong Chai Xinyu Xiao Ziyuan Huang MLLM 66 1 0 05 May 2025
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT D. Jiang Ziyu Guo Renrui Zhang Zhuofan Zong Hao Li Le Zhuo Shilin Yan Pheng-Ann Heng H. Li LRM 57 0 0 01 May 2025
AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images Yunhao Li Sijing Wu Wei Sun Zhichao Zhang Yucheng Zhu Zicheng Zhang Huiyu Duan Xiongkuo Min Guangtao Zhai EGVM 78 0 0 30 Apr 2025
Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing Hong Zhang Zhongjie Duan Xingjun Wang Yuze Zhao Weiyi Lu Zhipeng Di Y. Xu Yingda Chen Yu Zhang MLLM 87 1 0 30 Apr 2025
GarmentX: Autoregressive Parametric Representations for High-Fidelity 3D Garment Generation Jingfeng Guo J. Chen Weikai Chen Zhenyu Sun Lanjiong Li Baozhu Zhao Lingting Zhu X. Wang Qi Liu 3DH 80 0 0 29 Apr 2025
Learning Streaming Video Representation via Multitask Training Yibin Yan Jilan Xu Shangzhe Di Yikun Liu Yudi Shi Qirui Chen Zeqian Li Yifei Huang Weidi Xie CLL 76 0 0 28 Apr 2025
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models Xu Ma Peize Sun Haoyu Ma Hao Tang Chih-Yao Ma ... Matt Feiszli Peizhao Zhang Peter Vajda Sam S. Tsai Y. Fu 65 1 0 24 Apr 2025
Distilling semantically aware orders for autoregressive image generation Rishav Pramanik Antoine Poupon Juan A. Rodriguez Masih Aminbeidokhti David Vazquez Christopher Pal Zhaozheng Yin M. Pedersoli 21 0 0 23 Apr 2025
Personalized Text-to-Image Generation with Auto-Regressive Models Kaiyue Sun Xian Liu Yao Teng Xihui Liu 33 0 0 17 Apr 2025
SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding Qianqian Sun Jixiang Luo Dell Zhang Xuelong Li DiffM 44 0 0 17 Apr 2025
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL Junke Wang Zhi Tian X. Wang Xinyu Zhang Weilin Huang Zuxuan Wu Yu Jiang VGen 40 2 0 15 Apr 2025
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers Xingjian Leng Jaskirat Singh Yunzhong Hou Zhenchang Xing Saining Xie Liang Zheng 34 0 0 14 Apr 2025
OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation Si-Tong Wei Rui-Huan Wang Chuan-Zhi Zhou Baoquan Chen Peng-Shuai Wang 26 0 0 14 Apr 2025
Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing Taihang Hu Linxuan Li Kai Wang Yaxing Wang Jian Yang Ming-Ming Cheng DiffM VGen 20 0 0 14 Apr 2025
D $^2$ iT: Dynamic Diffusion Transformer for Accurate Image Generation Weinan Jia Mengqi Huang Nan Chen Lei Zhang Zhendong Mao 18 0 0 13 Apr 2025
Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling Ziran Qin Youru Lv Mingbao Lin Zeren Zhang Danping Zou Weiyao Lin VLM 32 0 0 12 Apr 2025
Position: Beyond Euclidean -- Foundation Models Should Embrace Non-Euclidean Geometries Neil He Jiahong Liu Buze Zhang N. Bui Ali Maatouk Menglin Yang Irwin King Melanie Weber Rex Ying 24 0 0 11 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 29 0 0 11 Apr 2025
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning Zhong-Yu Li Ruoyi Du Juncheng Yan Le Zhuo Zhen Li Peng Gao Zhanyu Ma Ming-Ming Cheng VLM 66 2 0 10 Apr 2025
PixelFlow: Pixel-Space Generative Models with Flow Shoufa Chen Chongjian Ge Shilong Zhang Peize Sun Ping Luo VLM DRL 33 0 0 10 Apr 2025
UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding Yang Jiao Haibo Qiu Zequn Jie S. Chen Jingjing Chen Lin Ma Yu Jiang 26 2 0 06 Apr 2025
3D Scene Understanding Through Local Random Access Sequence Modeling Wanhee Lee Klemen Kotar R. Venkatesh Jared Watrous Honglin Chen Khai Loong Aw Daniel L. K. Yamins 3DV 29 0 0 04 Apr 2025
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation Zhiyuan Yan Junyan Ye Weijia Li Zilong Huang Shenghai Yuan Xiangyang He Kaiqing Lin Jun-Jian He Conghui He Li Yuan MLLM EGVM 88 8 0 03 Apr 2025
Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation Jiwoo Chung Sangeek Hyun Hyunjun Kim Eunseo Koh MinKyu Lee Jae-Pil Heo 33 0 0 03 Apr 2025
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning Xianwei Zhuang Yuxin Xie Yufan Deng Dongchao Yang Liming Liang Jinghan Ru Yuguo Yin Yuexian Zou 59 1 0 03 Apr 2025
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement Runhui Huang Chunwei Wang Junwei Yang Guansong Lu Yunlong Yuan ... Lu Hou Wei Zhang Lanqing Hong Hengshuang Zhao Hang Xu MLLM 76 1 0 02 Apr 2025
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization Siyuan Li L. Zhang Zedong Wang Juanxi Tian Cheng Tan ... Chang Yu Qingsong Xie Haonan Lu Haoqian Wang Zhen Lei 46 0 0 01 Apr 2025
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning Hang Guo Yawei Li Taolin Zhang J. Wang Tao Dai Shu-Tao Xia Luca Benini 56 1 0 30 Mar 2025
Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities Raman Dutt Harleen Hanspal Guoxuan Xia Petru-Daniel Tudosiu Alexander Black Yongxin Yang Steven G. McDonagh Sarah Parisot MoE 33 0 0 28 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu W. Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 48 2 0 27 Mar 2025
UGen: Unified Autoregressive Multimodal Model with Progressive Vocabulary Learning Hongxuan Tang Hao Liu Xinyan Xiao 37 1 0 27 Mar 2025
Unified Multimodal Discrete Diffusion Alexander Swerdlow Mihir Prabhudesai Siddharth Gandhi Deepak Pathak Katerina Fragkiadaki DiffM 63 0 0 26 Mar 2025
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models Alex Jinpeng Wang Linjie Li Z. Yang Lijuan Wang Min Li DiffM 68 0 0 26 Mar 2025
ARMO: Autoregressive Rigging for Multi-Category Objects Mingze Sun Shiwei Mao Keyi Chen Yurun Chen Shunlin Lu Jingbo Wang Junting Dong Ruqi Huang 3DH AI4CE 71 0 0 26 Mar 2025
MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation Jinnan Chen Lingting Zhu Zeyu Hu Shengju Qian Y. Chen Xin Wang G. Lee 91 1 0 26 Mar 2025
GIViC: Generative Implicit Video Compression Ge Gao Siyue Teng Tianhao Peng Fan Zhang David Bull DiffM VGen 31 0 0 25 Mar 2025
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model Jun Zhou J. Li Zunnan Xu Hanhui Li Yiji Cheng Fa-Ting Hong Qin Lin Qinglin Lu Xiaodan Liang DiffM 47 1 0 25 Mar 2025
LayerCraft: Enhancing Text-to-Image Generation with CoT Reasoning and Layered Object Integration Yuyao Zhang Jinghao Li Yu-Wing Tai DiffM 59 0 0 25 Mar 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 37 0 0 22 Mar 2025
Zero-Shot Styled Text Image Generation, but Make It Autoregressive Vittorio Pippi Fabio Quattrini S. Cascianelli Alessio Tonioni Rita Cucchiara 32 0 0 21 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 42 0 0 21 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 39 1 0 21 Mar 2025
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction Ziyao Guo K. Zhang Michael Qizhe Shieh 38 0 0 20 Mar 2025
Tokenize Image as a Set Zigang Geng Mengde Xu Han Hu Shuyang Gu DiffM 46 0 0 20 Mar 2025
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation Y. Wang Zhijie Lin Yao Teng Yuanzhi Zhu Shuhuai Ren Jiashi Feng Xihui Liu 46 0 0 20 Mar 2025
Cube: A Roblox View of 3D Intelligence Foundation AI Team Roblox Kiran Bhat Nishchaie Khanna Karun Channa Tinghui Zhou ... Kyle Price Steve Han Yiqing Wang A. Singh David Baszucki 49 0 0 19 Mar 2025
Temporal Regularization Makes Your Video Generator Stronger Harold Haodong Chen Haojian Huang Xianfeng Wu Yexin Liu Yajing Bai Wen-Jie Shu Harry Yang Ser-Nam Lim VGen 54 2 0 19 Mar 2025
CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation Masud Ahmed Zahid Hasan Syed Arefinul Haque A. Faridee S. Purushotham Suya You Nirmalya Roy 48 0 0 19 Mar 2025