MIR-GAN: Refining Frame-Level Modality-Invariant Representations with
Adversarial Network for Audio-Visual Speech Recognition

MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition

18 June 2023

Yuchen Hu

Chen Chen

Papers citing "MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition"

10 / 10 papers shown

Title
Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation Sungnyun Kim Sungwoo Cho Sangmin Bae Kangwook Jang Se-Young Yun SSL 68 1 0 23 Jan 2025
Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech Separation Yuchen Hu Chen Chen Heqing Zou Xionghu Zhong Chng Eng Siong 45 16 0 22 Feb 2023
Robust Data2vec: Noise-robust Speech Representation Learning for ASR by Combining Regression and Improved Contrastive Learning Qiu-shi Zhu Long Zhou Jie M. Zhang Shujie Liu Yu-Chen Hu Lirong Dai VLM SSL 48 37 0 27 Oct 2022
Visual Speech Recognition for Multiple Languages in the Wild Pingchuan Ma Stavros Petridis M. Pantic VLM 112 144 0 26 Feb 2022
Discriminative Latent Semantic Graph for Video Captioning Yang Bai Junyan Wang Yang Long Bingzhang Hu Yang Song M. Pagnucco Yu Guan 41 31 0 08 Aug 2021
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 79 224 0 12 Feb 2021
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis Wenmeng Yu Hua Xu Ziqi Yuan Jiele Wu SSL 47 438 0 09 Feb 2021
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 238 3,359 0 09 Mar 2020
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,387 0 21 Nov 2016
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 162 783 0 16 Nov 2016