Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis

Computer Vision and Pattern Recognition (CVPR), 2022

31 March 2022

ArXiv (abs)PDF HTML Github (107★)

Papers citing "Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis"

20 / 20 papers shown

AUREXA-SE: Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement

Harshith Jai Surya Ganji

A. Rahaman

Harshvardhan Choudhary

Nasir Saleem

Amir Hussain

M. Tanveer

06 Oct 2025

Real-Time System for Audio-Visual Target Speech Enhancement

112

25 Sep 2025

Pain in 3D: Generating Controllable Synthetic Faces for Automated Pain Assessment

255

20 Sep 2025

Real-Time Audio-Visual Speech Enhancement Using Pre-trained Visual Representations

164

29 Jul 2025

Two-stage Audio-Visual Target Speaker Extraction System for Real-Time Processing On Edge Device

163

28 May 2025

FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching

242

13 Jun 2024

TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable PlatformsProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2024

240

02 May 2024

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

141

01 Nov 2023

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion ModelIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Joon Son Chung

229

30 Oct 2023

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech EnhancementIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

389

14 Sep 2023

Neural Vector Fields: Generalizing Distance Vector Fields by Codebooks and Zero-Curl RegularizationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Xianghui Yang

Guosheng Lin

Huan Wang

Luping Zhou

302

04 Sep 2023

RepCodec: A Speech Representation Codec for Speech TokenizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Zhichao Huang

Chutong Meng

Tom Ko

209

31 Aug 2023

Audio-visual video-to-speech synthesis with synthesized input audio

Triantafyllos Kefalas

Yannis Panagakis

Maja Pantic

VGen DiffM

280

31 Jul 2023

Audio-Visual Speech Enhancement With Selective Off-Screen Speech ExtractionEuropean Signal Processing Conference (EUSIPCO), 2023

Tomoya Yoshinaga

Keitaro Tanaka

Shigeo Morishima

173

10 Jun 2023

Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge DistillationIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2023

Ruixin Zheng

Yang Ai

Zhenhua Ling

231

24 May 2023

Neural Vector Fields: Implicit Representation by Explicit LearningComputer Vision and Pattern Recognition (CVPR), 2023

Guosheng Lin

221

08 Mar 2023

CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion PriorComputer Vision and Pattern Recognition (CVPR), 2023

Xiaodong Cun

320

196

06 Jan 2023

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement

Yossi Adi

232

21 Dec 2022

LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural VocodersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

196

20 Nov 2022

Context-sensitive neocortical neurons transform the effectiveness and efficiency of neural information processing

271

15 Jul 2022