v1v2v3 (latest)

Taming Transformers for High-Resolution Image Synthesis

Computer Vision and Pattern Recognition (CVPR), 2020

17 December 2020

ArXiv (abs)PDF HTML Github (6185★)

Papers citing "Taming Transformers for High-Resolution Image Synthesis"

50 / 2,402 papers shown

Pretraining is All You Need for Image-to-Image Translation

Tengfei Wang

433

198

25 May 2022

ASSET: Autoregressive Semantic Scene Editing with Transformers at High ResolutionsACM Transactions on Graphics (TOG), 2022

193

24 May 2022

M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing

Zhikang Li

Huiling Zhou

Shuai Bai

Peike Li

Chang Zhou

Hongxia Yang

184

24 May 2022

Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingNeural Information Processing Systems (NeurIPS), 2022

...

Raphael Gontijo-Lopes

David J Fleet

1.2K

7,502

23 May 2022

Transformer-based out-of-distribution detection for clinically safe segmentationInternational Conference on Medical Imaging with Deep Learning (MIDL), 2022

...

Sebastien Ourselin

160

21 May 2022

UViM: A Unified Modeling Approach for Vision with Learned Guiding CodesNeural Information Processing Systems (NeurIPS), 2022

366

20 May 2022

Towards Unified Keyframe Propagation Models

127

19 May 2022

Masked Image Modeling with Denoising ContrastInternational Conference on Learning Representations (ICLR), 2022

Shusheng Yang

Ying Shan

205

19 May 2022

BBDM: Image-to-image Translation with Brownian Bridge Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2022

408

237

16 May 2022

SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic QuantizationInternational Conference on Machine Learning (ICML), 2022

221

16 May 2022

VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel DecoderEuropean Conference on Computer Vision (ECCV), 2022

Ying Shan

199

166

13 May 2022

StyLandGAN: A StyleGAN based Landscape Image Synthesis using Depth-map

269

13 May 2022

Deep Learning and Synthetic Media

Raphaël Millière

186

11 May 2022

Reduce Information Loss in Transformers for Pluralistic Image InpaintingComputer Vision and Pattern Recognition (CVPR), 2022

Lu Yuan

165

10 May 2022

Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild

117

10 May 2022

NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level QualityIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Xu Tan

Jian Cong

...

322

290

09 May 2022

Seeding Diversity into AI ArtInternational Conference on Innovative Computing and Cloud Computing (ICCC), 2022

Marvin Zammit

Antonios Liapis

Georgios N. Yannakakis

138

02 May 2022

CogView2: Faster and Better Text-to-Image Generation via Hierarchical TransformersNeural Information Processing Systems (NeurIPS), 2022

Ming Ding

415

395

28 Apr 2022

Can deep learning match the efficiency of human visual long-term memory in storing object details?

Emin Orhan

VLM OCL

227

27 Apr 2022

Conformer and Blind Noisy Students for Improved Image Quality Assessment

Marcos V. Conde

Maxime Burchi

Radu Timofte

DiffM

168

27 Apr 2022

An Overview of Recent Work in Media Forensics: Methods and Threats

286

26 Apr 2022

Semi-Parametric Neural Image Synthesis

300

25 Apr 2022

Opal: Multimodal Image Generation for News IllustrationACM Symposium on User Interface Software and Technology (UIST), 2022

Vivian Liu

Han Qiao

Lydia B. Chilton

291

120

19 Apr 2022

CTCNet: A CNN-Transformer Cooperation Network for Face Image Super-ResolutionIEEE Transactions on Image Processing (IEEE TIP), 2022

Guangwei Gao

Jian Yang

Guo-Jun Qi

294

119

19 Apr 2022

VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language GuidanceEuropean Conference on Computer Vision (ECCV), 2022

482

440

18 Apr 2022

Imagination-Augmented Natural Language UnderstandingNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

218

18 Apr 2022

Learning to Listen: Modeling Non-Deterministic Dyadic Facial MotionComputer Vision and Pattern Recognition (CVPR), 2022

Hao Li

205

128

18 Apr 2022

Saliency in Augmented RealityACM Multimedia (ACM MM), 2022

Xiongkuo Min

Guangtao Zhai

128

18 Apr 2022

Simultaneous Multiple-Prompt Guided Generation Using Differentiable Optimal TransportInternational Conference on Innovative Computing and Cloud Computing (ICCC), 2022

128

18 Apr 2022

Unconditional Image-Text Pair Generation with Multimodal Cross QuantizerBritish Machine Vision Conference (BMVC), 2022

211

15 Apr 2022

Guided Co-Modulated GAN for 360° Field of View ExtrapolationInternational Conference on 3D Vision (3DV), 2022

Mohammad Reza Karimi Dastjerdi

Yannick Hold-Geoffroy

Jonathan Eisenmann

Siavash Khodadadeh

Jean-François Lalonde

147

15 Apr 2022

Any-resolution Training for High-resolution Image SynthesisEuropean Conference on Computer Vision (ECCV), 2022

235

14 Apr 2022

An Identity-Preserved Framework for Human Motion TransferIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2022

Jingzhe Ma

Xiaoqing Zhang

Shiqi Yu

254

14 Apr 2022

Hierarchical Text-Conditional Image Generation with CLIP Latents

1.1K

8,304

13 Apr 2022

No Token Left Behind: Explainability-Aided Image Classification and GenerationEuropean Conference on Computer Vision (ECCV), 2022

Roni Paiss

Hila Chefer

Lior Wolf

VLM

209

11 Apr 2022

ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and GenerationComputer Vision and Pattern Recognition (CVPR), 2022

Hang Xu

246

09 Apr 2022

Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive TransformerEuropean Conference on Computer Vision (ECCV), 2022

Devi Parikh

531

271

07 Apr 2022

KNN-Diffusion: Image Generation via Large-Scale RetrievalInternational Conference on Learning Representations (ICLR), 2022

238

147

06 Apr 2022

Text2LIVE: Text-Driven Layered Image and Video EditingEuropean Conference on Computer Vision (ECCV), 2022

497

370

05 Apr 2022

DT2I: Dense Text-to-Image Generation from Region DescriptionsInternational Conference on Artificial Neural Networks (ICANN), 2022

165

05 Apr 2022

Autoregressive 3D Shape Generation via Canonical MappingEuropean Conference on Computer Vision (ECCV), 2022

213

05 Apr 2022

High-Quality Pluralistic Image Completion via Code Shared VQGAN

Jianfei Cai

192

05 Apr 2022

Quantized GAN for Complex Music Generation from Dance VideosEuropean Conference on Computer Vision (ECCV), 2022

Yan Yan

228

01 Apr 2022

Perception Prioritized Training of Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2022

296

327

01 Apr 2022

Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-SynthesisComputer Vision and Pattern Recognition (CVPR), 2022

168

31 Mar 2022

VPTR: Efficient Transformers for Video PredictionInternational Conference on Pattern Recognition (ICPR), 2022

Xi Ye

Guillaume-Alexandre Bilodeau

ViT

233

29 Mar 2022

mc-BEiT: Multi-choice Discretization for Image BERT Pre-trainingEuropean Conference on Computer Vision (ECCV), 2022

Ying Shan

330

29 Mar 2022

Diverse Plausible 360-Degree Image Outpainting for Efficient 3DCG Background CreationComputer Vision and Pattern Recognition (CVPR), 2022

Naofumi Akimoto

Yuhi Matsuo

Y. Aoki

213

28 Mar 2022

Fusing Global and Local Features for Generalized AI-Synthesized Image DetectionInternational Conference on Information Photonics (ICIP), 2022

310

105

26 Mar 2022

Give Me Your Attention: Dot-Product Attention Considered Harmful for Adversarial Patch RobustnessComputer Vision and Pattern Recognition (CVPR), 2022

Giulio Lovisotto

Nicole Finnie

Mauricio Muñoz

Chaithanya Kumar Mummadi

J. H. Metzen

AAML ViT

138

25 Mar 2022