v1v2v3 (latest)

Taming Transformers for High-Resolution Image Synthesis

Computer Vision and Pattern Recognition (CVPR), 2020

17 December 2020

ArXiv (abs)PDF HTML Github (6185★)

Papers citing "Taming Transformers for High-Resolution Image Synthesis"

50 / 2,374 papers shown

Title
Tokenizing Electron Cloud in Protein-Ligand Interaction Learning H. Lin Odin Zhang Jia Xu Yunfan Liu Zheng Cheng Lirong Wu Yufei Huang Zhifeng Gao Stan Z. Li 194 3 0 25 May 2025
Plug-and-Play Context Feature Reuse for Efficient Masked Generation Xuejie Liu Anji Liu Karen Ullrich Yitao Liang 186 3 0 25 May 2025
Jodi: Unification of Visual Generation and Understanding via Joint Modeling Yifeng Xu Zhenliang He Meina Kan Shiguang Shan Xilin Chen VLM 278 1 0 25 May 2025
MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt Zhichao Wu Yueteng Kang Songjun Cao Long Ma Qiulin Li Qun Yang DiffM 144 2 0 24 May 2025
Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM Donghwan Chi Hyomin Kim Yoonjin Oh Yongjin Kim Donghoon Lee DaeJin Jo Jongmin Kim Junyeob Baek Sungjin Ahn Sungwoong Kim MLLM VLM 736 0 0 23 May 2025
High-Fidelity Functional Ultrasound Reconstruction via A Visual Auto-Regressive Framework Xuhang Chen Zhuo Li Yanyan Shen Mufti Mahmud Hieu Pham Chi-Man Pun Shuqiang Wang 154 3 0 23 May 2025
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation Jingjing Jiang Chongjie Si Jun Luo Hanwang Zhang Chao Ma 580 5 0 23 May 2025
Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning Cheng Peng Kai Zhang Mengxian Lyu Hongfang Liu Lichao Sun Yonghui Wu LM&MA MedIm VLM 411 2 0 23 May 2025
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO Chengzhuo Tong Ziyu Guo Renrui Zhang Wenyu Shan Xinyu Wei Zhenghao Xing Jiaming Song Pheng-Ann Heng EGVM OffRL LRM 274 20 0 22 May 2025
Creatively Upscaling Images with Global-Regional PriorsInternational Journal of Computer Vision (IJCV), 2025 Yurui Qian Qi Cai Yingwei Pan Ting Yao Tao Mei DiffM 319 0 0 22 May 2025
One-Step Diffusion-Based Image Compression with Semantic Distillation Naifu Xue Zhaoyang Jia Jiahao Li Bin Li Yuan Zhang Yan Lu DiffM 259 4 0 22 May 2025
TensorAR: Refinement is All You Need in Autoregressive Image Generation Cheng Cheng Lin Song Yicheng Xiao Yuxin Chen Xuchong Zhang Hongbin Sun Mingyu Ding VGen 262 2 0 22 May 2025
Training-Free Efficient Video Generation via Dynamic Token Carving Yuechen Zhang Jinbo Xing Bin Xia Shaoteng Liu Bohao Peng Xin Tao Pengfei Wan Eric Lo Jiaya Jia DiffM VGen 323 8 0 22 May 2025
FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design Renjie Wei Songqiang Xu Qingyu Guo Meng Li MQ 183 0 0 22 May 2025
Advancing Brainwave Modeling with a Codebook-Based Foundation Model Konstantinos Barmpas Na Lee Yannis Panagakis Dimitrios A. Adamos Nikolaos Laskaris Stefanos Zafeiriou 84 0 0 22 May 2025
ChemMLLM: Chemical Multimodal Large Language Model Qian Tan Dongzhan Zhou Peng Xia Wanhao Liu Xuming He Lei Bai Yuqiang Li Haiwen Huang MLLM 192 6 0 22 May 2025
MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention Chaoyi Jiang Sungwoo Kim Lei Gao Hossein Entezari Zarch Won Woo Ro Murali Annavaram 166 0 0 22 May 2025
Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression Linfeng Qi Zhaoyang Jia Jiahao Li Bin Li Houqiang Li Yan Lu 368 6 0 22 May 2025
Exploring In-Image Machine Translation with Real-World BackgroundAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Yanzhi Tian Zeming Liu Zhengyang Liu Yuhang Guo DiffM VLM 132 1 0 21 May 2025
MMaDA: Multimodal Large Diffusion Language Models Ling Yang Ye Tian Bowen Li Xinchen Zhang Ke Shen Yunhai Tong Mengdi Wang VLM LRM 433 98 0 21 May 2025
Learning to Integrate Diffusion ODEs by Averaging the Derivatives Wenze Liu Xiangyu Yue 305 4 0 20 May 2025
RLVR-World: Training World Models with Reinforcement Learning Jialong Wu Shaofeng Yin Ningya Feng Mingsheng Long OffRL VGen 439 15 0 20 May 2025
MSDformer: Multi-scale Discrete Transformer For Time Series Generation Zhicheng Chen Shibo Feng Xi Xiao Zhong Zhang Qing Li Xingyu Gao Peilin Zhao 200 1 0 20 May 2025
Universal Semantic Disentangled Privacy-preserving Speech Representation Learning Biel Tura Vecino Subhadeep Maji Aravind Varier Antonio Bonafonte Ivan Valles ... Roberto Barra-Chicote Ariya Rastrow C. Papayiannis Volker Leutnant Trevor Wood 232 0 0 19 May 2025
VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation Huawei Lin Tong Geng Zhaozhuo Xu Weijie Zhao VLM 396 2 0 19 May 2025
GANCompress: GAN-Enhanced Neural Image Compression with Binary Spherical Quantization Karthik Sivakoti 109 0 0 19 May 2025
Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio Jongmin Jung Dongmin Kim Sihun Lee Seola Cho Hyungjoon Soh Irmak Bukey Chris Donahue Dasaem Jeong 139 0 0 19 May 2025
MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning Jinhua Zhang Wei Long Minghao Han Weiyi You Shuhang Gu BDL 219 0 0 19 May 2025
Mean Flows for One-step Generative Modeling Zhengyang Geng Mingyang Deng Xingjian Bai J. Zico Kolter Kaiming He DiffM 350 121 0 19 May 2025
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal GuidanceComputer Vision and Pattern Recognition (CVPR), 2025 Dian Shao Mingfei Shi Shengda Xu Haodong Chen Yongle Huang Binglu Wang 3DH 320 6 0 19 May 2025
Hyperbolic Residual Quantization: Discrete Representations for Data with Latent Hierarchies Piotr Piękos Subhradeep Kayal Alexandros Karatzoglou 181 0 0 18 May 2025
Context-Aware Autoregressive Models for Multi-Conditional Image Generation Yixiao Chen Zhiyuan Ma Guoli Jia Che Jiang Jianjun Li Bowen Zhou DiffM 219 3 0 18 May 2025
Patient-Specific Autoregressive Models for Organ Motion Prediction in Radiotherapy Yuxiang Lai Jike Zhong Vanessa Su Xiaofeng Yang 238 1 0 17 May 2025
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling Yuang Ai Qihang Fan Xuefeng Hu Zhenheng Yang Xiao-Yu Zhang Huaibo Huang DiffM 302 1 0 16 May 2025
ToDMA: Large Model-Driven Token-Domain Multiple Access for Semantic Communications Li Qiao Mahdi Boloursaz Mashhadi Zhen Gao Robert Schober Deniz Gunduz 150 3 0 16 May 2025
Visual Planning: Let's Think Only with Images Yi Xu Chengzu Li Han Zhou Xingchen Wan Caiqi Zhang Anna Korhonen Ivan Vulić LM&Ro LRM 367 32 0 16 May 2025
MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation Gabriel Maldonado Armin Danesh Pazho Ghazal Alinezhad Noghre Vinit Katariya Hamed Tabkhi CLIP VGen 284 0 0 16 May 2025
High Quality Underwater Image Compression with Adaptive Correction and Codebook-based Augmentation Yimin Zhou Yichong Xia Sicheng Pan Bin Chen Baoyi An Haoqian Wang Xiping Hu Yaowei Wang Zikun Zhou 243 0 0 15 May 2025
Multi-Token Prediction Needs Registers Anastasios Gerontopoulos Spyros Gidaris N. Komodakis 319 3 0 15 May 2025
A Reproduction Study: The Kernel PCA Interpretation of Self-Attention Fails Under Scrutiny Karahan Sarıtaş Çağatay Yıldız 216 0 0 12 May 2025
H $^3$ DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning Yiyang Lu Yufeng Tian Zhecheng Yuan Xinyu Wang Pu Hua Zhengrong Xue Huazhe Xu 321 4 0 12 May 2025
Continuous Visual Autoregressive Generation via Score Maximization Chenze Shao Fandong Meng Jie Zhou DiffM 166 5 0 12 May 2025
Image Classification Using a Diffusion Model as a Pre-Training Model Kosuke Ukita Ye Xiaolong Tsuyoshi Okita DiffM MedIm VLM 148 0 0 11 May 2025
Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Kunpeng Qiu Zhiqiang Gao Zhiying Zhou Mingjie Sun Yongxin Guo MedIm 397 14 0 09 May 2025
TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation Haokun Lin Teng Wang Yixiao Ge Yuying Ge Zhichao Lu Ying Wei Gang Qu Zhenan Sun Mingyu Ding MLLM VLM 366 30 0 08 May 2025
D-CODA: Diffusion for Coordinated Dual-Arm Data Augmentation Isabella Liu Jason Chen Gaurav Sukhatme Daniel Seita 317 2 0 08 May 2025
Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models Mikhail Chaichuk Sushant Gautam Steven A. Hicks Elena Tutubalina DiffM MedIm 323 0 0 08 May 2025
OWT: A Foundational Organ-Wise Tokenization Framework for Medical Imaging Sifan Song Siyeop Yoon Pengfei Jin Sekeun Kim Matthew Tivnan ... Zhiliang Lyu Dufan Wu Ning Guo Xiang Li Quanzheng Li OOD ViT 229 0 0 08 May 2025
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer Jingwen Ye Yuze He Yanning Zhou Yiqin Zhu Kaiwen Xiao Yong-Jin Liu Wei Yang Xiao Han 221 7 0 07 May 2025
AgentSGEN: Multi-Agent LLM in the Loop for Semantic Collaboration and GENeration of Synthetic Data Vu Dinh Xuan Hao Vo David Murphy Hoang D. Nguyen SyDa 152 1 0 07 May 2025

All Papers

Taming Transformers for High-Resolution Image Synthesis

Papers citing "Taming Transformers for High-Resolution Image Synthesis"