v1v2v3 (latest)

Taming Transformers for High-Resolution Image Synthesis

Computer Vision and Pattern Recognition (CVPR), 2020

17 December 2020

ArXiv (abs)PDF HTML Github (6185★)

Papers citing "Taming Transformers for High-Resolution Image Synthesis"

50 / 2,401 papers shown

Image Tokenizer Needs Post-Training

188

15 Sep 2025

AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective

112

15 Sep 2025

Layout-Conditioned Autoregressive Text-to-Image Generation via Structured Masking

...

159

15 Sep 2025

InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

122

12 Sep 2025

Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization

148

12 Sep 2025

Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video

112

10 Sep 2025

Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling

223

10 Sep 2025

Diffusion-Based Action Recognition Generalizes to Untrained Domains

269

10 Sep 2025

World Modeling with Probabilistic Structure Integration

...

132

10 Sep 2025

Reconstruction Alignment Improves Unified Multimodal Models

214

08 Sep 2025

PRIM: Towards Practical In-Image Multilingual Machine Translation

120

05 Sep 2025

Missing Fine Details in Images: Last Seen in High Frequencies

294

05 Sep 2025

Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

207

02 Sep 2025

Analysis of Speaker Verification Performance Trade-offs with Neural Audio Codec Transmission

Nirmalya Mallick Thakur

J. Yip

Eng Siong Chng

02 Sep 2025

2D Gaussian Splatting with Semantic Alignment for Image Inpainting

151

02 Sep 2025

GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation

277

01 Sep 2025

Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS)

160

27 Aug 2025

Controllable Skin Synthesis via Lesion-Focused Vector Autoregression ModelInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

27 Aug 2025

LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding

160

26 Aug 2025

CEIDM: A Controlled Entity and Interaction Diffusion Model for Enhanced Text-to-Image Generation

121

25 Aug 2025

FlowVLA: Visual Chain of Thought-based Motion Reasoning for Vision-Language-Action Models

...

204

25 Aug 2025

Waver: Wave Your Way to Lifelike Video Generation

162

21 Aug 2025

Visual Autoregressive Modeling for Instruction-Guided Image Editing

162

21 Aug 2025

Survey of Vision-Language-Action Models for Embodied Manipulation

466

21 Aug 2025

Taming Transformer for Emotion-Controllable Talking Face Generation

Ziqi Zhang

Cheng Deng

CVBM

138

20 Aug 2025

Linear Preference Optimization: Decoupled Gradient Control via Absolute Regularization

211

20 Aug 2025

Disentanglement in T-space for Faster and Distributed Training of Diffusion Models with Fewer Latent-states

130

20 Aug 2025

From Basic Affordances to Symbolic Thought: A Computational Phylogenesis of Biological Intelligence

John E. Hummel

Rachel Heaton

20 Aug 2025

Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model

254

19 Aug 2025

2D Gaussians Meet Visual Tokenizer

149

19 Aug 2025

InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing

...

127

19 Aug 2025

Latent Interpolation Learning Using Diffusion Models for Cardiac Volume Reconstruction

...

309

19 Aug 2025

Next Visual Granularity Generation

146

18 Aug 2025

Versatile Video Tokenization with Generative 2D Gaussian Splatting

135

15 Aug 2025

Semi-supervised Image Dehazing via Expectation-Maximization and Bidirectional Brownian Bridge Diffusion Models

15 Aug 2025

Integrating Reinforcement Learning with Visual Generative Models: Foundations and Advances

306

14 Aug 2025

Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning

168

14 Aug 2025

GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning

14 Aug 2025

DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender SystemInternational Conference on Information and Knowledge Management (CIKM), 2025

165

14 Aug 2025

Exploiting Discriminative Codebook Prior for Autoregressive Image Generation

140

14 Aug 2025

Ultra-High-Definition Reference-Based Landmark Image Super-Resolution with Generative Diffusion Prior

127

14 Aug 2025

NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

...

201

14 Aug 2025

MInDI-3D: Iterative Deep Learning in 3D for Sparse-view Cone Beam Computed Tomography

Frank-Peter Schilling

MedIm

192

13 Aug 2025

PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training

152

13 Aug 2025

Prototype-Guided Diffusion: Visual Conditioning without External Memory

Hanane Azzag

M. Lebbah

DiffM VLM

282

13 Aug 2025

Images Speak Louder Than Scores: Failure Mode Escape for Enhancing Generative Quality

104

13 Aug 2025

OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better

...

200

13 Aug 2025

Stable Diffusion Models are Secretly Good at Visual In-Context Learning

Trevine Oorloff

Vishwanath Sindagi

Wele Gedara Chaminda Bandara

151

13 Aug 2025

RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space

110

12 Aug 2025

Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices

159

12 Aug 2025