Self-Supervised Audio-Visual Speech Representations Learning By
Multimodal Self-Distillation

Self-Supervised Audio-Visual Speech Representations Learning By Multimodal Self-Distillation

6 December 2022

Jing-Xuan Zhang

Jianqing Gao

Papers citing "Self-Supervised Audio-Visual Speech Representations Learning By Multimodal Self-Distillation"

5 / 5 papers shown

Title
Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation Sungnyun Kim Sungwoo Cho Sangmin Bae Kangwook Jang Se-Young Yun SSL 68 1 0 23 Jan 2025
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 79 221 0 12 Feb 2021
Lipreading using Temporal Convolutional Networks Brais Martínez Pingchuan Ma Stavros Petridis M. Pantic 168 237 0 23 Jan 2020