v1v2v3 (latest)

Audio-visual Speech Enhancement Using Conditional Variational Auto-Encoders

IEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2019

7 August 2019

M. Sadeghi

Simon Leglaive

Xavier Alameda-Pineda

Papers citing "Audio-visual Speech Enhancement Using Conditional Variational Auto-Encoders"

38 / 38 papers shown

Real-Time System for Audio-Visual Target Speech Enhancement

141

25 Sep 2025

End-to-end audio-visual learning for cochlear implant sound coding simulations in noisy environments

129

19 Aug 2025

Reading to Listen at the Cocktail Party: Multi-Modal Speech SeparationComputer Vision and Pattern Recognition (CVPR), 2022

Akam Rahimi

Triantafyllos Afouras

Andrew Zisserman

415

02 Jan 2025

A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation LearningACM Computing Surveys (ACM CSUR), 2024

Luis Vilaca

Yi Yu

Paula Vinan

533

24 Nov 2024

Diffusion-based Unsupervised Audio-visual Speech EnhancementIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Jean-Eudes Ayilo

Mostafa Sadeghi

Romain Serizel

Xavier Alameda-Pineda

DiffM

404

04 Oct 2024

FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching

287

13 Jun 2024

Missingness-resilient Video-enhanced Multimodal Disfluency Detection

274

11 Jun 2024

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Sanjoy Chowdhury

Sayan Nag

K. J. Joseph

Balaji Vasan Srinivasan

Dinesh Manocha

DiffM

278

07 Jun 2024

Audio-Visual Speech Enhancement in Noisy Environments via Emotion-Based Contextual Cues

275

26 Feb 2024

Deep Complex U-Net with Conformer for Audio-Visual Speech Enhancement

Wenze Ren

Yu Tsao

306

20 Sep 2023

AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained ModelIEEE transactions on multimedia (IEEE TMM), 2023

Jeong Hun Yeo

254

15 Aug 2023

Audio-visual video-to-speech synthesis with synthesized input audio

Triantafyllos Kefalas

Yannis Panagakis

Maja Pantic

VGen DiffM

304

31 Jul 2023

Audio-Visual Speech Enhancement with Score-Based Generative Models

302

02 Jun 2023

Integrating Uncertainty into Neural Network-based Speech EnhancementIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2023

224

15 May 2023

Neural Target Speech Extraction: An OverviewIEEE Signal Processing Magazine (IEEE Signal Process. Mag.), 2023

238

146

31 Jan 2023

Multi-Label Training for Text-Independent Speaker Identification

Yuqi Xue

169

14 Nov 2022

Fast and efficient speech enhancement with variational autoencodersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

M. Sadeghi

Romain Serizel

DRL BDL

184

02 Nov 2022

A weighted-variance variational autoencoder model for speech enhancementIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

A. Golmakani

M. Sadeghi

Xavier Alameda-Pineda

Romain Serizel

273

02 Nov 2022

Audio-visual speech enhancement with a deep Kalman filter generative modelIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

129

02 Nov 2022

Audio-Visual Speech Enhancement and Separation by Utilizing Multi-Modal Self-Supervised Embeddings

Yu Tsao

365

31 Oct 2022

A survey of multimodal deep generative models

Masahiro Suzuki

Y. Matsuo

SyDa DRL

223

117

05 Jul 2022

Few-Shot Audio-Visual Learning of Environment AcousticsNeural Information Processing Systems (NeurIPS), 2022

308

08 Jun 2022

Expression-preserving face frontalization improves visually assisted speech processingInternational Journal of Computer Vision (IJCV), 2022

Zhiqi Kang

M. Sadeghi

Radu Horaud

Xavier Alameda-Pineda

CVBM

446

06 Apr 2022

Recent Advances and Challenges in Deep Audio-Visual Correlation Learning

Luís Vilacca

Yi Yu

Paula Viana

340

28 Feb 2022

Visual Acoustic MatchingComputer Vision and Pattern Recognition (CVPR), 2022

325

14 Feb 2022

The impact of removing head movements on audio-visual speech enhancementIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Zhiqi Kang

M. Sadeghi

Radu Horaud

Xavier Alameda-Pineda

Jacob Donley

Anurag Kumar

CVBM

200

01 Feb 2022

A Novel Temporal Attentive-Pooling based Convolutional Recurrent Architecture for Acoustic Signal EnhancementIEEE Transactions on Artificial Intelligence (IEEE TAI), 2022

Xugang Lu

Amir Hussain

163

24 Jan 2022

Unsupervised Speech Enhancement using Dynamical Variational Auto-Encoders

Xiaoyu Bie

Simon Leglaive

Xavier Alameda-Pineda

Laurent Girin

DiffM

343

23 Jun 2021

Variational Structured Attention Networks for Deep Visual Representation LearningIEEE Transactions on Image Processing (TIP), 2021

Guanglei Yang

Paolo Rota

Xavier Alameda-Pineda

Dan Xu

M. Ding

Elisa Ricci

3DPC

204

05 Mar 2021

Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech EnhancementIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021

M. Sadeghi

Xavier Alameda-Pineda

106

08 Feb 2021

Face Frontalization Based on Robustly Fitting a Deformable Shape Model to 3D Landmarks

243

26 Oct 2020

Improved Lite Audio-Visual Speech EnhancementIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2020

Shang-Yi Chuang

Hsin-Min Wang

Yu Tsao

385

30 Aug 2020

Deep Variational Generative Models for Audio-visual Speech Separation

V. Nguyen

M. Sadeghi

Elisa Ricci

Xavier Alameda-Pineda

SSL DRL

244

17 Aug 2020

SINVAD: Search-based Image Space Navigation for DNN Image Classifier Test Input Generation

231

19 May 2020

Speaker Re-identification with Speaker Dependent Speech Enhancement

Yanpei Shi

Qiang Huang

Thomas Hain

233

15 May 2020

Robust Speaker Recognition Using Speech Enhancement And Attention ModelThe Speaker and Language Recognition Workshop (Odyssey), 2020

Yanpei Shi

Qiang Huang

Thomas Hain

300

14 Jan 2020

Mixture of Inference Networks for VAE-based Audio-visual Speech EnhancementIEEE Transactions on Signal Processing (IEEE Trans. Signal Process.), 2019

M. Sadeghi

Xavier Alameda-Pineda

318

23 Dec 2019

Robust Unsupervised Audio-visual Speech Enhancement Using a Mixture of Variational AutoencodersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019

M. Sadeghi

Xavier Alameda-Pineda

204

10 Nov 2019