Real Time Speech Enhancement in the Waveform Domain

23 June 2020

Yossi Adi

Papers citing "Real Time Speech Enhancement in the Waveform Domain"

50 / 64 papers shown

Title
MaskClip: Detachable Clip-on Piezoelectric Sensing of Mask Surface Vibrations for Real-time Noise-Robust Speech Input Hirotaka Hiraki Jun Rekimoto 19 0 0 04 May 2025
FLOWER: Flow-Based Estimated Gaussian Guidance for General Speech Restoration Da-Hee Yang Jaeuk Lee Joon-Hyuk Chang VLM AI4CE 33 0 0 03 May 2025
How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios Satvik Venkatesh Philip Coleman Arthur Benilov Simon Brown Selim Sheta Frederic Roskam 27 0 0 02 May 2025
A Low-Power Streaming Speech Enhancement Accelerator For Edge Devices Ci-Hao Wu Tian-Sheuan Chang 61 1 0 27 Mar 2025
CleanMel: Mel-Spectrogram Enhancement for Improving Both Speech Quality and ASR Nian Shao Rui Zhou Pengyu Wang Xian Li Ying Fang Yujie Yang Xiaofei Li 34 0 0 27 Feb 2025
RestoreGrad: Signal Restoration Using Conditional Denoising Diffusion Models with Jointly Learned Prior Ching Hua Lee Chouchang Yang Jaejin Cho Yashas Malur Saidutta R. S. Srinivasa Yilin Shen Hongxia Jin DiffM 85 0 0 19 Feb 2025
Leveraging Broadcast Media Subtitle Transcripts for Automatic Speech Recognition and Subtitling Jakob Poncelet Hugo Van hamme 69 0 0 05 Feb 2025
AnyEnhance: A Unified Generative Model with Prompt-Guidance and Self-Critic for Voice Enhancement Junan Zhang Jing Yang Zihao Fang Y. Wang Zehua Zhang Zhuo Wang Fan Fan Z. Wu 41 2 0 26 Jan 2025
Speech Enhancement with Overlapped-Frame Information Fusion and Causal Self-Attention Yuewei Zhang Huanbin Zou Jie Zhu 39 0 0 21 Jan 2025
Reading to Listen at the Cocktail Party: Multi-Modal Speech Separation Akam Rahimi Triantafyllos Afouras Andrew Zisserman 40 28 0 02 Jan 2025
Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling Yan Ru Pei Ritik Shrivastava Fnu Sidharth 40 1 0 31 Dec 2024
Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning Dragos-Alexandru Boldisor Stefan Smeu Dan Oneaţă Elisabeta Oneata 98 1 0 29 Nov 2024
CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning Sjoerd Groot Qinyu Chen Jan C. van Gemert Chang Gao Mamba 120 0 0 14 Oct 2024
GALD-SE: Guided Anisotropic Lightweight Diffusion for Efficient Speech Enhancement Chengzhong Wang Jianjun Gu Dingding Yao Junfeng Li Yonghong Yan DiffM 119 0 0 23 Sep 2024
High-Resolution Speech Restoration with Latent Diffusion Model Tushar Dhyani Florian Lux Michele Mancusi Giorgio Fabbro Fritz Hohl Ngoc Thang Vu DiffM 35 0 0 17 Sep 2024
RF Challenge: The Data-Driven Radio Frequency Signal Separation Challenge A. Lancho Amir Weiss Gary C. F. Lee T. Jayashankar Binoy G. Kurien Yury Polyanskiy Gregory W. Wornell 40 0 0 13 Sep 2024
The VoiceMOS Challenge 2024: Beyond Speech Quality Prediction Wen-Chin Huang Szu-Wei Fu Erica Cooper Ryandhimas E. Zezario T. Toda Hsin-Min Wang Junichi Yamagishi Yu Tsao 32 5 0 11 Sep 2024
DeWinder: Single-Channel Wind Noise Reduction using Ultrasound Sensing Kuang Yuan Shuo Han Swarun Kumar Bhiksha Raj 24 2 0 10 Sep 2024
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors J. Hauret Malo Olivier Thomas Joubaud C. Langrenne Sarah Poirée V. Zimpfer Éric Bavu 75 1 0 16 Jul 2024
SNR-Progressive Model with Harmonic Compensation for Low-SNR Speech Enhancement Zhongshu Hou Tong Lei Qinwen Hu Zhanzhong Cao Ming Tang Jing Lu 32 0 0 24 Jun 2024
Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants Chloe Sekkat Fanny Leroy Salima Mdhaffar Blake Perry Smith Yannick Esteve Joseph Dureau A. Coucke 27 1 0 14 May 2024
An Investigation of Incorporating Mamba for Speech Enhancement Rong-Yu Chao Wen-Huang Cheng Moreno La Quatra Sabato Marco Siniscalchi Chao-Han Huck Yang Szu-Wei Fu Yu Tsao Mamba 45 25 0 10 May 2024
Exploration of Adapter for Noise Robust Automatic Speech Recognition Hao Shi Tatsuya Kawahara 35 5 0 28 Feb 2024
Real-time Low-latency Music Source Separation using Hybrid Spectrogram-TasNet Satvik Venkatesh Arthur Benilov Philip Coleman Frederic Roskam 35 5 0 27 Feb 2024
A Two-Stage Framework in Cross-Spectrum Domain for Real-Time Speech Enhancement Yuewei Zhang Huanbin Zou Jie Zhu 21 3 0 19 Jan 2024
Single-channel speech enhancement using learnable loss mixup Oscar Chang Dung N. Tran K. Koishida 43 7 0 20 Dec 2023
Investigating the Design Space of Diffusion Models for Speech Enhancement Philippe Gonzalez Zheng-Hua Tan Jan Østergaard Jesper Jensen T. S. Alstrøm Tobias May DiffM 25 6 0 07 Dec 2023
NOMAD: Unsupervised Learning of Perceptual Embeddings for Speech Enhancement and Non-matching Reference Audio Quality Assessment Alessandro Ragano Jan Skoglund Andrew Hines 12 9 0 28 Sep 2023
Speech Enhancement with Multi-granularity Vector Quantization Xiaokang Zhao Qiu-shi Zhu Jie M. Zhang 14 0 0 16 Feb 2023
THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement Feng Dang Qi Hu Pengyuan Zhang 13 2 0 19 Jan 2023
Audio2Gestures: Generating Diverse Gestures from Audio Jing Li Di Kang Wenjie Pei Xuefei Zhe Ying Zhang Linchao Bao Zhenyu He DiffM SLR 23 8 0 17 Jan 2023
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement Wei-Ning Hsu Tal Remez Bowen Shi Jacob Donley Yossi Adi DiffM 27 11 0 21 Dec 2022
Audio Denoising for Robust Audio Fingerprinting Kamil Akesbi 15 3 0 21 Dec 2022
Deep neural network techniques for monaural speech enhancement: state of the art analysis P. Ochieng 28 21 0 01 Dec 2022
Exploring WavLM on Speech Enhancement Hyungchan Song Sanyuan Chen Zhuo Chen Yu-Huan Wu Takuya Yoshioka M. Tang Jong Won Shin Shujie Liu 11 16 0 18 Nov 2022
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations Paul-Ambroise Duquenne Hongyu Gong Ning Dong Jingfei Du Ann Lee Vedanuj Goswani Changhan Wang J. Pino Benoît Sagot Holger Schwenk 37 34 0 08 Nov 2022
Understanding Acoustic Patterns of Human Teachers Demonstrating Manipulation Tasks to Robots Akanksha Saran K. Desai M. L. Chang Rudolf Lioutikov A. Thomaz S. Niekum 17 3 0 01 Nov 2022
SRTNet: Time Domain Speech Enhancement Via Stochastic Refinement Zhibin Qiu Mengfan Fu Yinfeng Yu Lili Yin Fuchun Sun Hao-Ming Huang DiffM 109 17 0 30 Oct 2022
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Yuma Koizumi Kohei Yatabe Heiga Zen M. Bacchiani DiffM 42 29 0 03 Oct 2022
Speech Enhancement Using Self-Supervised Pre-Trained Model and Vector Quantization Xiaokang Zhao Qiu-shi Zhu Jie M. Zhang 34 4 0 28 Sep 2022
Deep Audio Waveform Prior A. Turetzky Tzvi Michelson Yossi Adi Shmuel Peleg 11 9 0 21 Jul 2022
NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional Resampling Chi-Chang Lee Cheng-Hung Hu Yu-Chen Lin Chu-Song Chen Hsin-Min Wang Yu Tsao 22 2 0 18 Jun 2022
To Dereverb Or Not to Dereverb? Perceptual Studies On Real-Time Dereverberation Targets J. Valin Ritwik Giri Shrikant Venkataramani Umut Isik A. Krishnaswamy 13 2 0 16 Jun 2022
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR Qiu-shi Zhu Jie M. Zhang Zitian Zhang Lirong Dai 35 15 0 26 May 2022
Speaker Reinforcement Using Target Source Extraction for Robust Automatic Speech Recognition Catalin Zorila R. Doddipatla 8 11 0 09 May 2022
Taylor, Can You Hear Me Now? A Taylor-Unfolding Framework for Monaural Speech Enhancement Andong Li Shan You Guochen Yu C. Zheng Xiaodong Li 30 26 0 30 Apr 2022
FFC-SE: Fast Fourier Convolution for Speech Enhancement Ivan Shchekotov Pavel Andreev Oleg Ivanov Aibek Alanov Dmitry Vetrov 8 23 0 06 Apr 2022
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis Karren D. Yang Dejan Marković Steven Krenn Vasu Agrawal Alexander Richard VGen 16 32 0 31 Mar 2022
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction Zexu Pan Meng Ge Haizhou Li 18 17 0 31 Mar 2022
CMGAN: Conformer-based Metric GAN for Speech Enhancement Ru Cao Sherif Abdulatif Bin Yang 6 91 0 28 Mar 2022