v1v2v3 (latest)

Taming Transformers for High-Resolution Image Synthesis

Computer Vision and Pattern Recognition (CVPR), 2020

17 December 2020

ArXiv (abs)PDF HTML Github (6185★)

Papers citing "Taming Transformers for High-Resolution Image Synthesis"

50 / 2,402 papers shown

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

304

22 Apr 2025

MirrorVerse: Pushing Diffusion Models to Realistically Reflect the WorldComputer Vision and Pattern Recognition (CVPR), 2025

Tao Lu

Manan Shah

R. V. Babu

297

21 Apr 2025

Generative Multimodal Pretraining with Discrete Diffusion Timestep TokensComputer Vision and Pattern Recognition (CVPR), 2025

315

20 Apr 2025

Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis

...

313

20 Apr 2025

The Path to Reconciling Quality and Safety in Text-to-Image Generation: Dataset, Method, and Evaluation

406

19 Apr 2025

Towards Explainable Fake Image Detection with Multi-Modal Large Language Models

512

19 Apr 2025

Image Editing with Diffusion Models: A Survey

322

17 Apr 2025

SkyReels-V2: Infinite-length Film Generative Model

...

505

17 Apr 2025

Hierarchical Vector Quantized Graph Autoencoder with Annealing-Based Code SelectionThe Web Conference (WWW), 2025

251

17 Apr 2025

Autoregressive Distillation of Diffusion TransformersComputer Vision and Pattern Recognition (CVPR), 2025

309

15 Apr 2025

Deep Generative Model-Based Generation of Synthetic Individual-Specific Brain MRI Segmentations

503

15 Apr 2025

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual PerceptionInternational Conference on Learning Representations (ICLR), 2025

486

15 Apr 2025

SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

408

15 Apr 2025

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

298

14 Apr 2025

InstructEngine: Instruction-driven Text-to-Image Alignment

...

377

14 Apr 2025

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

410

14 Apr 2025

D$^2$iT: Dynamic Diffusion Transformer for Accurate Image Generation

^2

iT: Dynamic Diffusion Transformer for Accurate Image GenerationComputer Vision and Pattern Recognition (CVPR), 2025

306

13 Apr 2025

Generation of Musical Timbres using a Text-Guided Diffusion Model

223

12 Apr 2025

Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling

301

12 Apr 2025

Diffusion Models for Robotic Manipulation: A SurveyFrontiers in Robotics and AI (Front. Robot. AI), 2025

514

11 Apr 2025

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

365

11 Apr 2025

MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

321

11 Apr 2025

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

360

11 Apr 2025

Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Gabriele Lozupone

Alessandro Bria

F. Fontanella

Frederick J.A. Meijer

C. D. Stefano

Henkjan Huisman

DiffM MedIm

191

11 Apr 2025

PixelFlow: Pixel-Space Generative Models with Flow

259

10 Apr 2025

Model Discrepancy Learning: Synthetic Faces Detection Based on Multi-Reconstruction

186

10 Apr 2025

Domain Generalization via Discrete Codebook Learning

247

09 Apr 2025

A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model

268

08 Apr 2025

CamC2V: Context-aware Controllable Video Generation

Luis Denninger

Sina Mokhtarzadeh Azar

Juergen Gall

VGen

325

08 Apr 2025

OmniSVG: A Unified Scalable Vector Graphics Generation Model

517

08 Apr 2025

Generative Adversarial Networks with Limited Data: A Survey and Benchmarking

Omar de Mitri

Ruyu Wang

Marco F. Huber

289

07 Apr 2025

Studying Image Diffusion Features for Zero-Shot Video Object Segmentation

335

07 Apr 2025

FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency

Shiyan Liu

Rui Qu

Yan Jin

292

06 Apr 2025

UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding

289

06 Apr 2025

Walk Before You Dance: High-fidelity and Editable Dance Synthesis via Generative Masked Motion Prior

Foram Niravbhai Shah

Parshwa Shah

Muhammad Usama Saleem

Ekkasit Pinyoanuntapong

696

06 Apr 2025

Scaling Federated Learning Solutions with Kubernetes for Synthesizing Histopathology Images

Andrei Preda

Iulian-Marius Taiatu

Dumitru-Clementin Cercel

FedML MedIm

200

05 Apr 2025

3D Scene Understanding Through Local Random Access Sequence Modeling

240

04 Apr 2025

SkyReels-A2: Compose Anything in Video Diffusion Transformers

...

332

03 Apr 2025

Moment Quantization for Video Temporal Grounding

240

03 Apr 2025

Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization

336

03 Apr 2025

Fine-Tuning Visual Autoregressive Models for Subject-Driven Generation

321

03 Apr 2025

VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

341

03 Apr 2025

Detecting Lip-Syncing Deepfakes: Vision Temporal Transformer for Analyzing Mouth Inconsistencies

Soumyya Kanti Datta

Shan Jia

Siwei Lyu

272

02 Apr 2025

FlowR: Flowing from Sparse to Dense 3D Reconstructions

373

02 Apr 2025

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image TranslationComputer Vision and Pattern Recognition (CVPR), 2025

272

02 Apr 2025

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

...

366

02 Apr 2025

Instruction-Guided Autoregressive Neural Network Parameter Generation

276

02 Apr 2025

Learned Image Compression with Dictionary-based Entropy ModelComputer Vision and Pattern Recognition (CVPR), 2025

314

01 Apr 2025

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and QuantizationComputer Vision and Pattern Recognition (CVPR), 2025

...

295

01 Apr 2025

AP-CAP: Advancing High-Quality Data Synthesis for Animal Pose Estimation via a Controllable Image Generation Pipeline

216

01 Apr 2025