An Image is Worth 32 Tokens for Reconstruction and Generation

11 June 2024

Daniel Cremers

Papers citing "An Image is Worth 32 Tokens for Reconstruction and Generation"

50 / 76 papers shown

Title
Continuous Visual Autoregressive Generation via Score Maximization Chenze Shao Fandong Meng Jie Zhou DiffM 11 0 0 12 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities X. Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 57 0 0 05 May 2025
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models Yushu Wu Yanyu Li Ivan Skorokhodov Anil Kag Willi Menapace Sharath Girish Aliaksandr Siarohin Yanzhi Wang Sergey Tulyakov DiffM VGen 35 0 0 14 Apr 2025
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers Xingjian Leng Jaskirat Singh Yunzhong Hou Zhenchang Xing Saining Xie Liang Zheng 34 0 0 14 Apr 2025
ALMTokenizer: A Low-bitrate and Semantic-rich Audio Codec Tokenizer for Audio Language Modeling Dongchao Yang Songxiang Liu Haohan Guo Jiankun Zhao Yuanyuan Wang ... Xubo Liu Xueyuan Chen Xu Tan Xixin Wu H. Meng 29 0 0 14 Apr 2025
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation Tianwei Xiong Jun Hao Liew Zilong Huang Jiashi Feng Xihui Liu 29 0 0 11 Apr 2025
Overcoming Vocabulary Constraints with Pixel-level Fallback Jonas F. Lotz Hendra Setiawan Stephan Peitz Yova Kementchedjhieva 35 0 0 02 Apr 2025
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization Siyuan Li L. Zhang Zedong Wang Juanxi Tian Cheng Tan ... Chang Yu Qingsong Xie Haonan Lu Haoqian Wang Zhen Lei 46 0 0 01 Apr 2025
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models Qingqing Zhao Yao Lu Moo Jin Kim Zipeng Fu Zhuoyang Zhang ... Ankur Handa Ming-Yu Liu Donglai Xiang Gordon Wetzstein Tsung-Yi Lin LM&Ro LRM 40 9 0 27 Mar 2025
CODA: Repurposing Continuous VAEs for Discrete Tokenization Zeyu Liu Zanlin Ni Yeguo Hua Xin Deng Xiao Ma Cheng Zhong Gao Huang 42 0 0 22 Mar 2025
Halton Scheduler For Masked Generative Image Transformer Victor Besnier Mickael Chen David Hurych Eduardo Valle Matthieu Cord 44 1 0 21 Mar 2025
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens Panpan Wang Liqiang Niu Fandong Meng Jinan Xu Yufeng Chen Jie Zhou DiffM 42 0 0 21 Mar 2025
Tokenize Image as a Set Zigang Geng Mengde Xu Han Hu Shuyang Gu DiffM 48 0 0 20 Mar 2025
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation Y. Wang Zhijie Lin Yao Teng Yuanzhi Zhu Shuhuai Ren Jiashi Feng Xihui Liu 46 0 0 20 Mar 2025
Deeply Supervised Flow-Based Generative Models Inkyu Shin Chenglin Yang Liang-Chieh Chen 58 0 0 18 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 64 0 0 17 Mar 2025
LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching Feihong Yan Qingyan Wei Jiayi Tang J. Li Y. Wang Xuming Hu Huiqi Li Linfeng Zhang 46 0 0 16 Mar 2025
Direction-Aware Diagonal Autoregressive Image Generation Yijia Xu Jianzhong Ju Jian Luan J. Cui 45 0 0 14 Mar 2025
Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization Kyle Sargent Kyle Hsu Justin Johnson L. Fei-Fei Jiajun Wu DiffM MU 51 2 0 14 Mar 2025
Semantic Latent Motion for Portrait Video Generation Qiyuan Zhang Chenyu Wu Wenzhang Sun Huaize Liu Donglin Di Wei Chen Changqing Zou VGen 64 0 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 64 0 0 13 Mar 2025
Autoregressive Image Generation with Randomized Parallel Decoding Haopeng Li Jinyue Yang Guoqi Li Huan Wang 53 0 0 13 Mar 2025
Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models I. Cho Youngbeom Yoo Subin Jeon Seon Joo Kim DiffM 58 0 0 11 Mar 2025
"Principal Components" Enable A New Language of Images Xin Wen Bingchen Zhao Ismail Elezi Jiankang Deng Xiaojuan Qi 59 0 0 11 Mar 2025
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis Kai Qiu X. Li Jason Kuen H. Chen Xiaohao Xu Jiuxiang Gu Yinyi Luo Bhiksha Raj Zhe-nan Lin Marios Savvides 55 0 0 11 Mar 2025
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion Mingzhen Sun Weining Wang Gen Li Jiawei Liu Jiahui Sun Wanquan Feng Shanshan Lao Siyu Zhou Qian He J. Liu DiffM VGen 73 2 0 10 Mar 2025
V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation Guiwei Zhang Tianyu Zhang Mohan Zhou Yalong Bai Biye Li 59 0 0 10 Mar 2025
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation Z. Chen Chunwei Wang Xiuwei Chen Hang Xu J. Han Xiandan Liang VLM 67 1 0 09 Mar 2025
Frequency Autoregressive Image Generation with Continuous Tokens Hu Yu Hao Luo Hangjie Yuan Yu Rong Feng Zhao VGen 37 1 0 07 Mar 2025
DLF: Extreme Image Compression with Dual-generative Latent Fusion Naifu Xue Zhaoyang Jia Jiahao Li Bin Li Yuan Zhang Yan-Heng Lu 48 1 0 03 Mar 2025
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation Sucheng Ren Qihang Yu Ju He Xiaohui Shen Alan Yuille Liang-Chieh Chen VGen 76 5 0 27 Feb 2025
From Principles to Applications: A Comprehensive Survey of Discrete Tokenizers in Generation, Comprehension, Recommendation, and Information Retrieval Jian Jia Jingtong Gao Ben Xue Junhao Wang Qingpeng Cai Quan Chen Xiangyu Zhao Peng Jiang Kun Gai OffRL 62 0 0 18 Feb 2025
MARS: Mesh AutoRegressive Model for 3D Shape Detailization Jingnan Gao Weizhe Liu Weixuan Sun Senbo Wang Xibin Song ... Shenzhou Chen Hongdong Li X. J. Yang Yichao Yan Pan Ji 74 2 0 17 Feb 2025
Visual Generation Without Guidance Huayu Chen Kai Jiang Kaiwen Zheng Jianfei Chen Hang Su J. Zhu 55 0 0 28 Jan 2025
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens Dongwon Kim Ju He Qihang Yu Chenglin Yang Xiaohui Shen Suha Kwak Liang-Chieh Chen VLM 40 6 0 13 Jan 2025
CAT: Content-Adaptive Image Tokenization Junhong Shen Kushal Tirumala Michihiro Yasunaga Ishan Misra Luke Zettlemoyer Lili Yu Chunting Zhou 24 0 0 06 Jan 2025
When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization Vivek Ramanujan Kushal Tirumala Armen Aghajanyan Luke Zettlemoyer Ali Farhadi DiffM 71 2 0 20 Dec 2024
Next Patch Prediction for Autoregressive Visual Generation Yatian Pang Peng Jin Shuo Yang Bin Lin Bin Zhu ... Liuhan Chen Francis E. H. Tay Ser-Nam Lim Harry Yang Li Yuan 117 8 0 19 Dec 2024
SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer H. Chen Z. Wang X. Li X. Sun Fangyi Chen Jiang Liu J. Wang Bhiksha Raj Zicheng Liu Emad Barsoum VLM 103 6 0 14 Dec 2024
[MASK] is All You Need Vincent Tao Hu Bjorn Ommer DiffM 135 2 0 09 Dec 2024
RandAR: Decoder-only Autoregressive Visual Generation in Random Orders Ziqi Pang Tianyuan Zhang Fujun Luan Yunze Man Hao Tan Kai Zhang William T. Freeman Yu-Xiong Wang VGen 64 12 0 02 Dec 2024
XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation X. Li Kai Qiu H. Chen Jason Kuen Jiuxiang Gu J. Wang Zhe-nan Lin Bhiksha Raj VLM 112 3 0 02 Dec 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 105 5 0 28 Nov 2024
Factorized Visual Tokenization and Generation Zechen Bai Jianxiong Gao Ziteng Gao Pichao Wang Zheng Zhang Tong He Mike Zheng Shou 61 3 0 25 Nov 2024
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE Yongwei Chen Yushi Lan Shangchen Zhou Tengfei Wang Xingang Pan 97 5 0 25 Nov 2024
Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation Tim Elsner Paula Usinger Julius Nehring-Wirxel Gregor Kobsik Victor Czech Yanjiang He I. Lim Leif Kobbelt 27 0 0 15 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 46 9 0 08 Nov 2024
Adaptive Length Image Tokenization via Recurrent Allocation Shivam Duggal Phillip Isola Antonio Torralba William T. Freeman VLM 24 4 0 04 Nov 2024
Randomized Autoregressive Visual Generation Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VGen DiffM 50 28 1 01 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 40 3 0 29 Oct 2024