v1v2v3 (latest)

Taming Transformers for High-Resolution Image Synthesis

Computer Vision and Pattern Recognition (CVPR), 2020

17 December 2020

ArXiv (abs)PDF HTML Github (6185★)

Papers citing "Taming Transformers for High-Resolution Image Synthesis"

50 / 2,404 papers shown

Heartcare Suite: A Unified Multimodal ECG Suite for Dual Signal-Image Modeling and Understanding

...

302

24 Dec 2025

DeRA: Decoupled Representation Alignment for Video Tokenization

103

04 Dec 2025

Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding

Abhigyan Bhattacharya

Hiranmoy Roy

155

04 Dec 2025

Efficient Generative Transformer Operators For Million-Point PDEs

Armand K. Koupai

Lise Le Boudec

Patrick Gallinari

04 Dec 2025

Autoregressive Image Generation Needs Only a Few Lines of Cached Tokens

106

04 Dec 2025

Rethinking Security in Semantic Communication: Latent Manipulation as a New Threat

Zhiyuan Xi

Kun Zhu

AAML

177

03 Dec 2025

What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models

...

03 Dec 2025

LSRS: Latent Scale Rejection Sampling for Visual Autoregressive Modeling

Hong-Kai Zheng

Piji Li

03 Dec 2025

Hierarchical Process Reward Models are Symbolic Vision Learners

02 Dec 2025

PixPerfect: Seamless Latent Diffusion Local Editing with Discriminative Pixel-Space Refinement

137

02 Dec 2025

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

02 Dec 2025

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

288

02 Dec 2025

Co-speech Gesture Video Generation via Motion-Based Graph Retrieval

512

02 Dec 2025

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

197

02 Dec 2025

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

...

166

01 Dec 2025

Deconstructing Generative Diversity: An Information Bottleneck Analysis of Discrete Latent Generative Models

Yudi Wu

Wenhao Zhao

Dianbo Liu

113

01 Dec 2025

ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation

...

161

01 Dec 2025

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

...

228

28 Nov 2025

Visual Generation Tuning

307

28 Nov 2025

REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection

...

139

28 Nov 2025

Quantized-Tinyllava: a new multimodal foundation model enables efficient split learning

J. Guo

Xin Luo

Jie Liu

Yiqun Wang

Kai-Wei Chang

Wei Wang

Jie Liu

101

28 Nov 2025

Guiding Visual Autoregressive Models through Spectrum Weakening

176

28 Nov 2025

Bringing Your Portrait to 3D Presence

245

27 Nov 2025

Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

27 Nov 2025

The Collapse of Patches

27 Nov 2025

Adversarial Flow Models

157

27 Nov 2025

Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

159

26 Nov 2025

DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

124

26 Nov 2025

DINO-Tok: Adapting DINO for Visual Tokenizers

...

201

25 Nov 2025

PromptMoG: Enhancing Diversity in Long-Prompt Image Generation via Prompt Embedding Mixture-of-Gaussian Sampling

189

25 Nov 2025

Temporal-Visual Semantic Alignment: A Unified Architecture for Transferring Spatial Priors from Vision Models to Zero-Shot Temporal Tasks

291

25 Nov 2025

LATTICE: Democratize High-Fidelity 3D Generation at Scale

24 Nov 2025

Understanding, Accelerating, and Improving MeanFlow Training

237

24 Nov 2025

FVAR: Visual Autoregressive Modeling via Next Focus Prediction

171

24 Nov 2025

CoD: A Diffusion Foundation Model for Image Compression

380

24 Nov 2025

MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation

...

111

23 Nov 2025

MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization

Seulgi Jeong

Jaeil Kim

DiffM

144

22 Nov 2025

Spanning Tree Autoregressive Visual Generation

205

21 Nov 2025

RynnVLA-002: A Unified Vision-Language-Action and World Model

...

325

21 Nov 2025

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

171

21 Nov 2025

H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation

222

21 Nov 2025

AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers

298

20 Nov 2025

Flow and Depth Assisted Video Prediction with Latent Transformer

159

20 Nov 2025

Progressive Supernet Training for Efficient Visual Autoregressive Modeling

110

20 Nov 2025

LiSTAR: Ray-Centric World Models for 4D LiDAR Sequences in Autonomous Driving

...

416

20 Nov 2025

Decoupling Complexity from Scale in Latent Diffusion Model

320

20 Nov 2025

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

257

19 Nov 2025

UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space

220

19 Nov 2025

GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation

268

18 Nov 2025

Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion

110

18 Nov 2025