U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers

4 May 2024

Papers citing "U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers"

7 / 7 papers shown

Title
LaVin-DiT: Large Vision Diffusion Transformer Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang M. Gong Tongliang Liu 92 6 0 18 Nov 2024
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers Enze Xie Junsong Chen Junyu Chen Han Cai Haotian Tang ... Zhekai Zhang Muyang Li Ligeng Zhu Y. Lu Song Han VLM 31 48 0 14 Oct 2024
FiT: Flexible Vision Transformer for Diffusion Model Zeyu Lu Zidong Wang Di Huang Chengyue Wu Xihui Liu Wanli Ouyang Lei Bai 155 45 0 19 Feb 2024
CMT: Convolutional Neural Networks Meet Vision Transformers Jianyuan Guo Kai Han Han Wu Yehui Tang Chunjing Xu Yunhe Wang Chang Xu ViT 337 500 0 13 Jul 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,538 0 24 Feb 2021
RepVGG: Making VGG-style ConvNets Great Again Xiaohan Ding X. Zhang Ningning Ma Jungong Han Guiguang Ding Jian-jun Sun 117 1,484 0 11 Jan 2021
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 229 74,467 0 18 May 2015