Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction

16 December 2023

Papers citing "Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction"

7 / 7 papers shown

Title
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation Zhaoxi Mu Xinyu Yang Gang Wang AuLLM KELM VLM 55 0 0 06 May 2025
Beyond Speaker Identity: Text Guided Target Speech Extraction Mingyue Huo Abhinav Jain Cong Phuoc Huynh Fanjie Kong Pichao Wang Zhu Liu Vimal Bhat 42 0 0 17 Jan 2025
Towards the Next Frontier in Speech Representation Learning Using Disentanglement Varun Krishna Sriram Ganapathy SSL 17 1 0 02 Jul 2024
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention Ruijie Tao Xinyuan Qian Yidi Jiang Junjie Li Jiadong Wang Haizhou Li 32 1 0 29 Apr 2024
Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction Zhaoxi Mu Xinyu Yang 27 5 0 19 Apr 2024
X-SepFormer: End-to-end Speaker Extraction Network with Explicit Optimization on Speaker Confusion Kai Liu Z.C. Du Xucheng Wan Huan Zhou 42 18 0 09 Mar 2023
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 185 198 0 08 Jan 2021