v1v2v3v4v5 (latest)

PiT: Progressive Diffusion Transformer

19 May 2025

Papers citing "PiT: Progressive Diffusion Transformer"

27 / 27 papers shown

EMOv2: Pushing 5M Vision Model Frontier

255

09 Dec 2024

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

...

2.5K

2,797

05 Mar 2024

DiffiT: Diffusion Vision Transformers for Image GenerationEuropean Conference on Computer Vision (ECCV), 2023

360

118

04 Dec 2023

PVG: Progressive Vision Graph for Vision RecognitionACM Multimedia (ACM MM), 2023

Jiangning Zhang

Yabiao Wang

Chengjie Wang

ViT

323

01 Aug 2023

MDTv2: Masked Diffusion Transformer is a Strong Image SynthesizerIEEE International Conference on Computer Vision (ICCV), 2023

1.1K

254

25 Mar 2023

One Transformer Fits All Distributions in Multi-Modal Diffusion at ScaleInternational Conference on Machine Learning (ICML), 2023

Hang Su

Jun Zhu

DiffM

535

177

12 Mar 2023

Rethinking Mobile Block for Efficient Attention-based ModelsIEEE International Conference on Computer Vision (ICCV), 2023

Jiangning Zhang

Xiangtai Li

Yabiao Wang

Chengjie Wang

347

204

03 Jan 2023

All are Worth Words: A ViT Backbone for Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Hang Su

Jun Zhu

VLM

553

507

25 Sep 2022

Masked-attention Mask Transformer for Universal Image Segmentation

1.7K

3,334

02 Dec 2021

CoAtNet: Marrying Convolution and Attention for All Data SizesNeural Information Processing Systems (NeurIPS), 2021

Mingxing Tan

584

1,478

09 Jun 2021

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive BiasNeural Information Processing Systems (NeurIPS), 2021

Qiming Zhang

451

396

07 Jun 2021

CvT: Introducing Convolutions to Vision TransformersIEEE International Conference on Computer Vision (ICCV), 2021

Lu Yuan

Lei Zhang

ViT

583

2,291

29 Mar 2021

CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image ClassificationIEEE International Conference on Computer Vision (ICCV), 2021

362

1,943

27 Mar 2021

Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsIEEE International Conference on Computer Vision (ICCV), 2021

3.2K

28,729

25 Mar 2021

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without ConvolutionsIEEE International Conference on Computer Vision (ICCV), 2021

Xiang Li

Ping Luo

977

4,374

24 Feb 2021

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNetIEEE International Conference on Computer Vision (ICCV), 2021

Weihao Yu

628

2,360

28 Jan 2021

Training data-efficient image transformers & distillation through attentionInternational Conference on Machine Learning (ICML), 2020

Alexandre Sablayrolles

Edouard Grave

ViT

672

8,392

23 Dec 2020

Pre-Trained Image Processing TransformerComputer Vision and Pattern Recognition (CVPR), 2020

940

2,064

01 Dec 2020

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy

...

1.4K

55,775

22 Oct 2020

Denoising Diffusion Probabilistic Models

Jonathan Ho

Ajay Jain

Pieter Abbeel

DiffM

5.1K

26,105

19 Jun 2020

End-to-End Object Detection with TransformersEuropean Conference on Computer Vision (ECCV), 2020

2.7K

16,595

26 May 2020

GLU Variants Improve Transformer

Noam M. Shazeer

614

1,495

12 Feb 2020

Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be PrunedAnnual Meeting of the Association for Computational Linguistics (ACL), 2019

782

1,345

23 May 2019

Attention Is All You NeedNeural Information Processing Systems (NeurIPS), 2017

4.4K

163,656

12 Jun 2017

Deep Residual Learning for Image Recognition

3.7K

218,756

10 Dec 2015

U-Net: Convolutional Networks for Biomedical Image Segmentation

Olaf Ronneberger

Philipp Fischer

Thomas Brox

SSeg 3DV

3.5K

89,836

18 May 2015

LINE: Large-scale Information Network Embedding

Jian Tang

387

5,530

12 Mar 2015