Diffusion Models as Masked Audio-Video Learners

5 October 2023

Yanzi Jin

Papers citing "Diffusion Models as Masked Audio-Video Learners"

2 / 2 papers shown

Title
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer Sachin Mehta Mohammad Rastegari ViT 189 1,148 0 05 Oct 2021