Autoregressive Image Generation without Vector Quantization

17 June 2024

Papers citing "Autoregressive Image Generation without Vector Quantization"

43 / 143 papers shown

Title
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis Anton Voronov Denis Kuznedelev Mikhail Khoroshikh Valentin Khrulkov Dmitry Baranchuk 106 2 0 02 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 113 5 0 28 Nov 2024
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation Marco Pasini J. Nistal Stefan Lattner George Fazekas 61 3 0 27 Nov 2024
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient Zigeng Chen Xinyin Ma Gongfan Fang Xinchao Wang VLM 87 4 0 26 Nov 2024
Rethinking Diffusion for Text-Driven Human Motion Generation Zichong Meng Yiming Xie Xiaogang Peng Zeyu Han Huaizu Jiang VGen 75 2 0 25 Nov 2024
Image Generation Diversity Issues and How to Tame Them Mischa Dombrowski Weitong Zhang Sarah Cechnicka Hadrien Reynaud Bernhard Kainz 67 0 0 25 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 46 9 0 08 Nov 2024
Randomized Autoregressive Visual Generation Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VGen DiffM 50 28 1 01 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 40 3 0 29 Oct 2024
Diffusion-nested Auto-Regressive Synthesis of Heterogeneous Tabular Data Hengrui Zhang Liancheng Fang Qitian Wu Philip S. Yu DiffM LMTD 18 1 0 28 Oct 2024
Scaling Diffusion Language Models via Adaptation from Autoregressive Models Shansan Gong Shivam Agarwal Yizhe Zhang Jiacheng Ye Lin Zheng ... Peilin Zhao W. Bi Jiawei Han Hao Peng Lingpeng Kong AI4CE 67 14 0 23 Oct 2024
Elucidating the design space of language models for image generation Xuantong Liu Shaozhe Hao Xianbiao Qi Tianyang Hu Jun Wang Rong Xiao Yuan Yao VLM 30 3 0 21 Oct 2024
Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step Mingyuan Zhou Huangjie Zheng Yi Gu Zhendong Wang Hai Huang DiffM 39 4 0 19 Oct 2024
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities Shaozhe Hao Xuantong Liu Xianbiao Qi Shihao Zhao Bojia Zi Rong Xiao Kai Han Kwan-Yee K. Wong 41 3 0 18 Oct 2024
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens Lijie Fan Tianhong Li Siyang Qin Yuanzhen Li Chen Sun Michael Rubinstein Deqing Sun Kaiming He Yonglong Tian VLM DiffM 27 40 0 17 Oct 2024
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation Chengyue Wu Xiaokang Chen Z. F. Wu Yiyang Ma Xingchao Liu ... Wen Liu Zhenda Xie Xingkai Yu Chong Ruan Ping Luo AI4TS 52 70 0 17 Oct 2024
MEV Capture Through Time-Advantaged Arbitrage Robin Fritsch Maria Ines Silva A. Mamageishvili Benjamin Livshits E. Felten 26 5 0 14 Oct 2024
Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling Wenze Liu Le Zhuo Yi Xin Sheng Xia Peng Gao Xiangyu Yue 29 6 0 14 Oct 2024
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment Huayu Chen Hang Su Peize Sun J. Zhu VLM 36 3 0 12 Oct 2024
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation Jiatao Gu Yuyang Wang Yizhe Zhang Qihang Zhang Dinghuai Zhang Navdeep Jaitly Josh Susskind Shuangfei Zhai DiffM 31 12 0 10 Oct 2024
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching Yushen Chen Zhikang Niu Ziyang Ma Keqi Deng Chunhui Wang Jian Zhao Kai Yu Xie Chen 25 50 0 09 Oct 2024
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs Louis Serrano Armand K. Koupai Thomas X. Wang Pierre Erbacher Patrick Gallinari AI4CE 21 3 0 04 Oct 2024
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition Zixuan Wang Chi-Keung Tang Chi-Keung Tang DiffM VGen LLMAG 38 4 0 04 Oct 2024
ImageFolder: Autoregressive Image Generation with Folded Tokens Xiang Li Kai Qiu Hao Chen Jason Kuen Jiuxiang Gu Bhiksha Raj Zhe-nan Lin VLM 34 17 0 02 Oct 2024
Denoising with a Joint-Embedding Predictive Architecture Dengsheng Chen Jie Hu Xiaoming Wei Enhua Wu DiffM 47 2 0 02 Oct 2024
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding Yao Teng Han Shi Xian Liu Xuefei Ning Guohao Dai Yu Wang Zhenguo Li Xihui Liu 48 10 0 02 Oct 2024
MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining Yunze Liu Li Yi Mamba 45 2 0 01 Oct 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 48 11 0 26 Sep 2024
Pixel-Space Post-Training of Latent Diffusion Models Christina Zhang Simran Motwani Matthew Yu Ji Hou Felix Juefei-Xu Sam S. Tsai Peter Vajda Zijian He Jialiang Wang 18 2 0 26 Sep 2024
MonoFormer: One Transformer for Both Diffusion and Autoregression Chuyang Zhao Yuxing Song Wenhao Wang Haocheng Feng Errui Ding Yifan Sun Xinyan Xiao Jingdong Wang DiffM 26 17 0 24 Sep 2024
MaskBit: Embedding-free Image Generation via Bit Tokens Mark Weber Lijun Yu Qihang Yu XueQing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen DiffM 49 27 0 24 Sep 2024
Generalizing Alignment Paradigm of Text-to-Image Generation with Preferences through $f$ -divergence Minimization Haoyuan Sun Bo Xia Yongzhe Chang Xueqian Wang EGVM 35 2 0 15 Sep 2024
A Score-Based Density Formula, with Applications in Diffusion Generative Models Gen Li Yuling Yan DiffM 39 0 0 29 Aug 2024
Body of Her: A Preliminary Study on End-to-End Humanoid Agent Tenglong Ao LM&Ro 18 1 0 06 Aug 2024
VAR-CLIP: Text-to-Image Generator with Visual Auto-Regressive Modeling Qian Zhang Xiangzi Dai Ninghua Yang Xiang An Ziyong Feng Xingyu Ren VLM CLIP 38 17 0 02 Aug 2024
Autoregressive Speech Synthesis without Vector Quantization Lingwei Meng Long Zhou Shujie Liu Sanyuan Chen Bing Han ... Jinyu Li Sheng Zhao Xixin Wu Helen Meng Furu Wei 29 30 0 11 Jul 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 59 31 0 07 Jun 2024
MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer Shanghua Gao Pan Zhou Mingg-Ming Cheng Shuicheng Yan DiffM 135 155 0 25 Mar 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 515 0 02 Jan 2023
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes Alexander Kolesnikov André Susano Pinto Lucas Beyer Xiaohua Zhai Jeremiah Harmsen N. Houlsby 103 67 0 20 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Pixel Recurrent Neural Networks Aaron van den Oord Nal Kalchbrenner Koray Kavukcuoglu SSeg GAN 225 2,542 0 25 Jan 2016