DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement

30 June 2021

Papers citing "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement"

26 / 26 papers shown

Title
Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration Shigeki Karita Yuma Koizumi Heiga Zen Haruko Ishikawa Robin Scheibler M. Bacchiani VLM 79 1 0 07 May 2025
Linguistic Knowledge Transfer Learning for Speech Enhancement Kuo-Hsuan Hung Xugang Lu Szu-Wei Fu H. Tseng Hsin-Yi Lin Chii-Wann Lin Yu Tsao VLM 60 0 0 10 Mar 2025
FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks Min Ma Yuma Koizumi Shigeki Karita Heiga Zen Jason Riesa Haruko Ishikawa M. Bacchiani VLM 21 4 0 12 Aug 2024
Sampling-Frequency-Independent Universal Sound Separation Tomohiko Nakamura Kohei Yatabe 19 0 0 22 Sep 2023
HM-Conformer: A Conformer-based audio deepfake detection system with hierarchical pooling and multi-level classification token aggregation methods Hyun-Seo Shin Ju-Sung Heo Ju-ho Kim Chanmann Lim Wonbin Kim Ha-Jin Yu 19 5 0 15 Sep 2023
Exploiting Time-Frequency Conformers for Music Audio Enhancement Yunkee Chae Junghyun Koo Sungho Lee Kyogu Lee 16 3 0 24 Aug 2023
Algorithms of Sampling-Frequency-Independent Layers for Non-integer Strides Kanami Imamura Tomohiko Nakamura Norihiro Takamune Kohei Yatabe Hiroshi Saruwatari 13 1 0 19 Jun 2023
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka M. Bacchiani Yu Zhang Wei Han Ankur Bapna 30 65 0 30 May 2023
Anomalous Sound Detection Based on Sound Separation Kanta Shimonishi Kota Dohi Y. Kawaguchi 18 5 0 25 May 2023
AudioSlots: A slot-centric generative model for audio separation P. Reddy Scott Wisdom Klaus Greff J. Hershey Thomas Kipf OCL VLM 20 6 0 09 May 2023
Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka Yu Zhang Wei Han Ankur Bapna M. Bacchiani 20 22 0 03 Mar 2023
DeFT-AN: Dense Frequency-Time Attentive Network for Multichannel Speech Enhancement Dongheon Lee Jung-Woo Choi 19 25 0 15 Dec 2022
Analysis of Noisy-target Training for DNN-based speech enhancement Takuya Fujimura T. Toda 19 4 0 02 Nov 2022
Improved Normalizing Flow-Based Speech Enhancement using an All-pole Gammatone Filterbank for Conditional Input Representation Martin Strauss Matteo Torcoli B. Edler 16 4 0 21 Oct 2022
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement Sherif Abdulatif Ru Cao Bin Yang 8 59 0 22 Sep 2022
Tiny-Sepformer: A Tiny Time-Domain Transformer Network for Speech Separation Jian Luo Jianzong Wang Ning Cheng Edward Xiao Xulong Zhang Jing Xiao ViT 11 12 0 28 Jun 2022
Insights Into Deep Non-linear Filters for Improved Multi-channel Speech Enhancement Kristina Tesch Timo Gerkmann 12 57 0 27 Jun 2022
On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech Enhancement Kristina Tesch Nils-Hendrik Mohrmann Timo Gerkmann 11 6 0 22 Jun 2022
A Conformer-based Waveform-domain Neural Acoustic Echo Canceller Optimized for ASR Accuracy S. Panchapagesan A. Narayanan T. Shabestary Shuai Shao N. Howard Alex Park James Walker A. Gruenstein 13 3 0 06 May 2022
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping Yuma Koizumi Heiga Zen Kohei Yatabe Nanxin Chen M. Bacchiani DiffM 14 45 0 31 Mar 2022
MFA-Conformer: Multi-scale Feature Aggregation Conformer for Automatic Speaker Verification Yang Zhang Zhiqiang Lv Haibin Wu Shanshan Zhang Pengfei Hu Zhiyong Wu Hung-yi Lee H. Meng ViT 19 130 0 29 Mar 2022
Exploring Self-Attention Mechanisms for Speech Separation Cem Subakan Mirco Ravanelli Samuele Cornell François Grondin Mirko Bronzi 19 23 0 06 Feb 2022
BLOOM-Net: Blockwise Optimization for Masking Networks Toward Scalable and Efficient Speech Enhancement Sunwoo Kim Minje Kim 26 4 0 17 Nov 2021
MT3: Multi-Task Multitrack Music Transcription Josh Gardner Ian Simon Ethan Manilow Curtis Hawthorne Jesse Engel 23 91 0 04 Nov 2021
SNRi Target Training for Joint Speech Enhancement and Recognition Yuma Koizumi Shigeki Karita A. Narayanan S. Panchapagesan M. Bacchiani 19 14 0 01 Nov 2021
Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation Jing-jing Chen Qi-rong Mao Dong Liu 54 279 0 28 Jul 2020