SDR - half-baked or well done?

6 November 2018

Papers citing "SDR - half-baked or well done?"

50 / 235 papers shown

Title
Unified Architecture and Unsupervised Speech Disentanglement for Speaker Embedding-Free Enrollment in Personalized Speech Enhancement Ziling Huang Haixin Guan Yanhua Long 12 0 0 18 May 2025
ArrayDPS: Unsupervised Blind Speech Separation with a Diffusion Prior Zhongweiyang Xu Xulin Fan Zhong-Qiu Wang Xilin Jiang Romit Roy Choudhury DiffM 54 0 0 08 May 2025
Listen to Extract: Onset-Prompted Target Speaker Extraction Pengjie Shen Kangrui Chen Shulin He Pengru Chen Shuqi Yuan He Kong Xueliang Zhang Zehao Wang 53 0 0 08 May 2025
Knowledge Distillation for Speech Denoising by Latent Representation Alignment with Cosine Distance Diep Luong Mikko Heikkinen K. Drossos Tuomas Virtanen 54 0 0 06 May 2025
The Inverse Drum Machine: Source Separation Through Joint Transcription and Analysis-by-Synthesis Bernardo Torres Geoffroy Peeters G. Richard 46 0 0 06 May 2025
A Comparative Study on Positional Encoding for Time-frequency Domain Dual-path Transformer-based Source Separation Models Kohei Saijo Tetsuji Ogawa 52 1 0 28 Apr 2025
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding Xilin Jiang Sukru Samet Dindar Vishal B. Choudhari Stephan Bickel A. Mehta Guy M McKhann A. Flinker D. Friedman N. Mesgarani 37 2 0 24 Feb 2025
RestoreGrad: Signal Restoration Using Conditional Denoising Diffusion Models with Jointly Learned Prior Ching Hua Lee Chouchang Yang Jaejin Cho Yashas Malur Saidutta R. S. Srinivasa Yilin Shen Hongxia Jin DiffM 88 0 0 19 Feb 2025
SoundSpring: Loss-Resilient Audio Transceiver with Dual-Functional Masked Language Modeling Shengshi Yao Jincheng Dai Xiaoqi Qin Sixian Wang Siye Wang K. Niu Ping Zhang 38 0 0 22 Jan 2025
Speech Enhancement with Overlapped-Frame Information Fusion and Causal Self-Attention Yuewei Zhang Huanbin Zou Jie Zhu 44 0 0 21 Jan 2025
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing David Perera Victor Letzelter Théo Mariotte Adrien Cortés Mickaël Chen S. Essid Ga¨el Richard 77 3 0 20 Jan 2025
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 43 6 0 17 Jan 2025
Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music Venkatakrishnan Vaidyanathapuram Krishnan Noel Alben Anish Nair Nathaniel Condit-Schultz 46 0 0 12 Jan 2025
Simultaneous Music Separation and Generation Using Multi-Track Latent Diffusion Models Tornike Karchkhadze M. Izadi Shlomo Dubnov DiffM 47 2 0 31 Dec 2024
Code Drift: Towards Idempotent Neural Audio Codecs P. O'Reilly Prem Seetharaman Jiaqi Su Zeyu Jin Bryan Pardo 196 0 0 14 Oct 2024
SCOREQ: Speech Quality Assessment with Contrastive Regression Alessandro Ragano Jan Skoglund Andrew Hines 40 6 0 09 Oct 2024
Variable Bitrate Residual Vector Quantization for Audio Coding Yunkee Chae Woosung Choi Yuhta Takida Junghyun Koo Yukara Ikemiya ... K. Cheuk Marco A. Martínez-Ramírez Kyogu Lee Wei-Hsiang Liao Yuki Mitsufuji 91 0 0 08 Oct 2024
Towards Ultra-Low-Power Neuromorphic Speech Enhancement with Spiking-FullSubNet Xiang Hao Chenxiang Ma Qu Yang Jibin Wu Kay Chen Tan 28 0 0 07 Oct 2024
Diffusion-based Unsupervised Audio-visual Speech Enhancement Jean-Eudes Ayilo Mostafa Sadeghi Romain Serizel Xavier Alameda-Pineda DiffM 30 0 0 04 Oct 2024
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios Kai Li Wendi Sang Chang Zeng Runxuan Yang Guo Chen Xiaolin Hu 39 2 0 02 Oct 2024
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation Mohan Xu Kai Li Guo Chen Xiaolin Hu 51 0 0 02 Oct 2024
Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables Artem Dementyev Chandan K. A. Reddy Scott Wisdom Navin Chatlani J. Hershey R. Lyon 20 0 0 26 Sep 2024
Geometry-Constrained EEG Channel Selection for Brain-Assisted Speech Enhancement Keying Zuo Qingtian Xu Jie Zhang Zhenhua Ling 39 0 0 19 Sep 2024
Learning Source Disentanglement in Neural Audio Codec Xiaoyu Bie Xubo Liu Gaël Richard 34 1 0 17 Sep 2024
Language-Queried Target Sound Extraction Without Parallel Training Data Hao Ma Zhiyuan Peng Xu Li Yukai Li Mingjie Shao Qiuqiang Kong Xuelong Li VLM 80 1 0 14 Sep 2024
DeWinder: Single-Channel Wind Noise Reduction using Ultrasound Sensing Kuang Yuan Shuo Han Swarun Kumar Bhiksha Raj 37 2 0 10 Sep 2024
USEF-TSE: Universal Speaker Embedding Free Target Speaker Extraction Bang Zeng Ming Li 45 3 0 04 Sep 2024
Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models Jean-Marie Lemercier Eloi Moliner Simon Welker Vesa Valimaki Timo Gerkmann 54 2 0 14 Aug 2024
Knowledge boosting during low-latency inference Vidya Srinivas Malek Itani Tuochao Chen Sefik Emre Eskimez Takuya Yoshioka Shyamnath Gollakota 32 2 0 09 Jul 2024
RealMAN: A Real-Recorded and Annotated Microphone Array Dataset for Dynamic Speech Enhancement and Localization Bing Yang Changsheng Quan Yabo Wang Pengyu Wang Yujie Yang Ying Fang Nian Shao Hui Bu Xin Xu Xiaofei Li 43 5 0 28 Jun 2024
FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching Chaeyoung Jung Suyeon Lee Ji-Hoon Kim Joon Son Chung DiffM 47 4 0 13 Jun 2024
Pre-training Feature Guided Diffusion Model for Speech Enhancement Yiyuan Yang Niki Trigoni Andrew Markham 37 3 0 11 Jun 2024
Unleashing the Denoising Capability of Diffusion Prior for Solving Inverse Problems Jiawei Zhang Jiaxin Zhuang Cheng Jin Gen Li Yuantao Gu DiffM 78 1 0 11 Jun 2024
Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge Thanapat Trachu Chawan Piansaddhayanon Ekapol Chuangsuwanich 37 2 0 10 Jun 2024
An Investigation of Incorporating Mamba for Speech Enhancement Rong-Yu Chao Wen-Huang Cheng Moreno La Quatra Sabato Marco Siniscalchi Chao-Han Huck Yang Szu-Wei Fu Yu Tsao Mamba 53 26 0 10 May 2024
Rethinking Processing Distortions: Disentangling the Impact of Speech Enhancement Errors on Speech Recognition Performance Tsubasa Ochiai Kazuma Iwamoto Marc Delcroix Rintaro Ikeshita Hiroshi Sato Shoko Araki Shigeru Katagiri 29 2 0 23 Apr 2024
Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models Emilian Postolache Giorgio Mariani Luca Cosmo Emmanouil Benetos Emanuele Rodolà DiffM 45 9 0 18 Mar 2024
Towards Decoupling Frontend Enhancement and Backend Recognition in Monaural Robust ASR Yufeng Yang Ashutosh Pandey DeLiang Wang 44 4 0 11 Mar 2024
ConSep: a Noise- and Reverberation-Robust Speech Separation Framework by Magnitude Conditioning Kuan-Hsun Ho J. Hung Berlin Chen 42 0 0 04 Mar 2024
Sound Source Separation Using Latent Variational Block-Wise Disentanglement Karim Helwani M. Togami Paris Smaragdis Michael M. Goodwin BDL DRL 26 1 0 08 Feb 2024
Continuous Target Speech Extraction: Enhancing Personalized Diarization and Extraction on Complex Recordings He Zhao Hangting Chen Jianwei Yu Yuehai Wang 53 0 0 29 Jan 2024
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion Samuel Pegg Kai Li Xiaolin Hu 34 1 0 25 Jan 2024
MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou J. Yip Dianwen Ng Bin Ma 38 23 0 19 Dec 2023
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit Xueyao Zhang Liumeng Xue Yicheng Gu Yuancheng Wang Haorui He ... Mingxuan Wang Jun Han Kai Chen Haizhou Li Zhizheng Wu 31 29 0 15 Dec 2023
Investigating the Design Space of Diffusion Models for Speech Enhancement Philippe Gonzalez Zheng-Hua Tan Jan Østergaard Jesper Jensen T. S. Alstrøm Tobias May DiffM 33 6 0 07 Dec 2023
Self-Supervised Music Source Separation Using Vector-Quantized Source Category Estimates Marco Pasini Stefan Lattner George Fazekas 35 1 0 21 Nov 2023
Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model Suyeon Lee Chaeyoung Jung Youngjoon Jang Jaehun Kim Joon Son Chung 35 7 0 30 Oct 2023
On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments William Ravenscroft Stefan Goetze Thomas Hain 35 7 0 09 Oct 2023
Diffusion-based speech enhancement with a weighted generative-supervised learning loss Jean-Eudes Ayilo Mostafa Sadeghi Romain Serizel DiffM 33 8 0 19 Sep 2023
Single-Channel Speech Enhancement with Deep Complex U-Networks and Probabilistic Latent Space Models E. J. Nustede Jörn Anemüller 27 3 0 04 Sep 2023