Attention is All You Need in Speech Separation

25 October 2020

Mirco Ravanelli

Papers citing "Attention is All You Need in Speech Separation"

50 / 57 papers shown

Title
Listen to Extract: Onset-Prompted Target Speaker Extraction Pengjie Shen Kangrui Chen Shulin He Pengru Chen Shuqi Yuan He Kong Xueliang Zhang Z. Wang 46 0 0 08 May 2025
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization Detao Bai Zhiheng Ma Xihan Wei Liefeng Bo 69 0 0 06 May 2025
MaskClip: Detachable Clip-on Piezoelectric Sensing of Mask Surface Vibrations for Real-time Noise-Robust Speech Input Hirotaka Hiraki Jun Rekimoto 14 0 0 04 May 2025
A Comparative Study on Positional Encoding for Time-frequency Domain Dual-path Transformer-based Source Separation Models Kohei Saijo Tetsuji Ogawa 45 1 0 28 Apr 2025
Spatial Speech Translation: Translating Across Space With Binaural Hearables Tuochao Chen Qirui Wang Runlin He Shyam Gollakota 29 0 0 25 Apr 2025
AACessTalk: Fostering Communication between Minimally Verbal Autistic Children and Parents with Contextual Guidance and Card Recommendation Dasom Choi SoHyun Park Kyungah Lee Hwajung Hong Y. Kim 40 0 0 17 Feb 2025
Annealed Multiple Choice Learning: Overcoming limitations of Winner-takes-all with annealing David Perera Victor Letzelter Théo Mariotte Adrien Cortés Mickaël Chen S. Essid Ga¨el Richard 64 2 0 20 Jan 2025
Beyond Speaker Identity: Text Guided Target Speech Extraction Mingyue Huo Abhinav Jain Cong Phuoc Huynh Fanjie Kong Pichao Wang Zhu Liu Vimal Bhat 45 0 0 17 Jan 2025
UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation Xinyao Liao Wei Wei Dangyang Chen Yuanyuan Fu 48 0 0 10 Jan 2025
Predictive Coding for Decision Transformer T. Luu Donghoon Lee Chang D. Yoo OffRL 51 1 0 04 Oct 2024
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation Mohan Xu Kai Li Guo Chen Xiaolin Hu 43 0 0 02 Oct 2024
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios Kai Li Wendi Sang Chang Zeng Runxuan Yang Guo Chen Xiaolin Hu 26 2 0 02 Oct 2024
Language-Queried Target Sound Extraction Without Parallel Training Data Hao Ma Zhiyuan Peng Xu Li Yukai Li Mingjie Shao Qiuqiang Kong Ju Liu VLM 69 1 0 14 Sep 2024
SNR-Progressive Model with Harmonic Compensation for Low-SNR Speech Enhancement Zhongshu Hou Tong Lei Qinwen Hu Zhanzhong Cao Ming Tang Jing Lu 32 0 0 24 Jun 2024
Just Because We Camp, Doesn't Mean We Should: The Ethics of Modelling Queer Voices A. Sigurgeirsson Eddie L. Ungless 31 2 0 11 Jun 2024
Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement Wangyou Zhang Kohei Saijo Jee-weon Jung Chenda Li Shinji Watanabe Yanmin Qian 30 4 0 06 Jun 2024
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture Ohad Cohen G. Hazan Sharon Gannot 26 1 0 05 Jun 2024
Effects of Dataset Sampling Rate for Noise Cancellation through Deep Learning Brandon Colelough Andrew Zheng 19 1 0 30 May 2024
ConSep: a Noise- and Reverberation-Robust Speech Separation Framework by Magnitude Conditioning Kuan-Hsun Ho J. Hung Berlin Chen 34 0 0 04 Mar 2024
Sound Source Separation Using Latent Variational Block-Wise Disentanglement Karim Helwani M. Togami Paris Smaragdis Michael M. Goodwin BDL DRL 21 1 0 08 Feb 2024
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion Samuel Pegg Kai Li Xiaolin Hu 24 1 0 25 Jan 2024
MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou J. Yip Dianwen Ng Bin Ma 8 21 0 19 Dec 2023
Contrastive Multi-Level Graph Neural Networks for Session-based Recommendation F. Wang Xingyu Gao Zhenyu Chen Lei Lyu 11 11 0 06 Nov 2023
On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments William Ravenscroft Stefan Goetze Thomas Hain 25 7 0 09 Oct 2023
Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio Yang Zhang Krishna C. Puvvada Vitaly Lavrukhin Boris Ginsburg 21 14 0 09 Aug 2023
AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction Jiuxin Lin X. Cai Heinrich Dinkel Jun Chen Zhiyong Yan Yongqing Wang Junbo Zhang Zhiyong Wu Yujun Wang Helen M. Meng 22 21 0 25 Jun 2023
Mixture Encoder for Joint Speech Separation and Recognition Simon Berger Peter Vieting Christoph Boeddeker Ralf Schluter Reinhold Häb-Umbach 11 6 0 21 Jun 2023
An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention Junyu Wang 22 1 0 09 Jun 2023
Multi-Dimensional and Multi-Scale Modeling for Speech Separation Optimized by Discriminative Learning Zhaoxi Mu Xinyu Yang Wenjing Zhu 14 5 0 07 Mar 2023
Transformadores: Fundamentos teoricos y Aplicaciones J. D. L. Torre 63 0 0 18 Feb 2023
Improving Target Speaker Extraction with Sparse LDA-transformed Speaker Embeddings Kai Liu Xucheng Wan Z.C. Du Huan Zhou VLM 22 1 0 16 Jan 2023
DeFT-AN: Dense Frequency-Time Attentive Network for Multichannel Speech Enhancement Dongheon Lee Jung-Woo Choi 19 25 0 15 Dec 2022
Deep neural network techniques for monaural speech enhancement: state of the art analysis P. Ochieng 28 21 0 01 Dec 2022
TF-GridNet: Integrating Full- and Sub-Band Modeling for Speech Separation Zhongqiu Wang Samuele Cornell Shukjae Choi Younglo Lee Byeonghak Kim Shinji Watanabe 21 116 0 22 Nov 2022
Hybrid Transformers for Music Source Separation Simon Rouard Francisco Massa Alexandre Défossez 16 128 0 15 Nov 2022
Speech separation with large-scale self-supervised learning Zhuo Chen Naoyuki Kanda Jian Wu Yu-Huan Wu Xiaofei Wang Takuya Yoshioka Jinyu Li S. Sivasankaran Sefik Emre Eskimez 17 13 0 09 Nov 2022
Diffusion-based Generative Speech Source Separation Robin Scheibler Youna Ji Soo-Whan Chung J. Byun Soyeon Choe Min-Seok Choi DiffM 14 38 0 31 Oct 2022
Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation William Ravenscroft Stefan Goetze Thomas Hain 25 11 0 27 Oct 2022
Semi-supervised Time Domain Target Speaker Extraction with Attention Zhepei Wang Ritwik Giri Shrikant Venkataramani Umut Isik J. Valin Paris Smaragdis Mike Goodwin A. Krishnaswamy 16 7 0 18 Jun 2022
SepIt: Approaching a Single Channel Speech Separation Bound Shahar Lutati Eliya Nachmani Lior Wolf VLM 40 27 0 24 May 2022
Deep Learning and Synthetic Media Raphaël Millière 13 18 0 11 May 2022
Heterogeneous Separation Consistency Training for Adaptation of Unsupervised Speech Separation Jiangyu Han Yanhua Long 20 6 0 23 Apr 2022
Multichannel Speech Separation with Narrow-band Conformer Changsheng Quan Xiaofei Li 15 12 0 09 Apr 2022
Phase-Aware Deep Speech Enhancement: It's All About The Frame Length Tal Peer Timo Gerkmann 12 21 0 30 Mar 2022
MANNER: Multi-view Attention Network for Noise Erasure Hyun Joon Park Byung Ha Kang Wooseok Shin Jin Sob Kim S. W. Han 19 48 0 04 Mar 2022
MixCycle: Unsupervised Speech Separation via Cyclic Mixture Permutation Invariant Training Ertuğ Karamatlı S. Kırbız SSL 22 9 0 08 Feb 2022
Active Audio-Visual Separation of Dynamic Sound Sources Sagnik Majumder Kristen Grauman 11 21 0 02 Feb 2022
SkiM: Skipping Memory LSTM for Low-Latency Real-Time Continuous Speech Separation Chenda Li Lei Yang Weiqin Wang Y. Qian 24 24 0 26 Jan 2022
A Time-domain Real-valued Generalized Wiener Filter for Multi-channel Neural Separation Systems Yi Luo 21 14 0 07 Dec 2021
Cross-attention conformer for context modeling in speech enhancement for ASR A. Narayanan Chung-Cheng Chiu Tom O'Malley Quan Wang Yanzhang He 17 14 0 30 Oct 2021