v1v2 (latest)

SEANet: A Multi-modal Speech Enhancement Network

4 September 2020

Papers citing "SEANet: A Multi-modal Speech Enhancement Network"

28 / 28 papers shown

Title
Neural Spectral Band Generation for Audio Coding Woongjib Choi Byeong Hyeon Kim Hyungseob Lim Inseon Jang Hong-Goo Kang 21 0 0 07 Jun 2025
Towards a Japanese Full-duplex Spoken Dialogue System Atsumoto Ohashi Shinya Iizuka Jingjing Jiang Ryuichiro Higashinaka AuLLM 52 0 0 03 Jun 2025
LibriBrain: Over 50 Hours of Within-Subject MEG to Improve Speech Decoding Methods at Scale Miran Özdogan Gilad Landau Gereon Elvers Dulhan Jayalath Pratik Somaiya Francesco Mantegna M. Woolrich Oiwi Parker Jones 36 2 0 02 Jun 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 164 4 0 28 Jan 2025
USpeech: Ultrasound-Enhanced Speech with Minimal Human Effort via Cross-Modal Synthesis Luca Jiang-Tao Yu Running Zhao Sijie Ji Edith C.H. Ngai Chenshu Wu 54 0 0 29 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 206 26 0 01 Oct 2024
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors J. Hauret Malo Olivier Thomas Joubaud C. Langrenne Sarah Poirée V. Zimpfer Éric Bavu 185 5 0 16 Jul 2024
The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning Dulhan Jayalath Gilad Landau Brendan Shillingford M. Woolrich Oiwi Parker Jones SSL 135 7 0 06 Jun 2024
The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio Yuankun Xie Yi Lu Ruibo Fu Zhengqi Wen Zhiyong Wang ... Xiaopeng Wang Yukun Liu Haonan Cheng Long Ye Yi Sun 98 21 0 08 May 2024
Towards audio language modeling -- an overview Haibin Wu Xuanjun Chen Yi-Cheng Lin Kai-Wei Chang Ho-Lam Chung Alexander H. Liu Hung-yi Lee AuLLM 110 35 0 20 Feb 2024
BigWavGAN: A Wave-To-Wave Generative Adversarial Network for Music Super-Resolution Yenan Zhang Hiroshi Watanabe 47 0 0 12 Aug 2023
Phase Repair for Time-Domain Convolutional Neural Networks in Music Super-Resolution Yenan Zhang G. Kolkman Hiroshi Watanabe SupR 56 2 0 20 Jun 2023
HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders Doyeon Kim Soo-Whan Chung Hyewon Han Youna Ji Hong-Goo Kang 71 7 0 02 Jun 2023
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 118 7 0 06 Mar 2023
EBEN: Extreme bandwidth extension network applied to speech signals captured with noise-resilient body-conduction microphones J. Hauret Thomas Joubaud V. Zimpfer Éric Bavu 48 10 0 25 Oct 2022
High Fidelity Neural Audio Compression Alexandre Défossez Jade Copet Gabriel Synnaeve Yossi Adi 133 674 0 24 Oct 2022
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Yuma Koizumi Kohei Yatabe Heiga Zen M. Bacchiani DiffM 116 30 0 03 Oct 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 163 616 0 07 Sep 2022
DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-Encoders Yanqing Liu Rui Xue Lei He Xu Tan Sheng Zhao 87 25 0 11 Jul 2022
Multi-instrument Music Synthesis with Spectrogram Diffusion Curtis Hawthorne Ian Simon Adam Roberts Neil Zeghidour Josh Gardner Ethan Manilow Jesse Engel DiffM 74 51 0 11 Jun 2022
Text-Driven Separation of Arbitrary Sounds Kevin Kilgour Beat Gfeller Qingqing Huang A. Jansen Scott Wisdom Marco Tagliasacchi 100 34 0 12 Apr 2022
FFC-SE: Fast Fourier Convolution for Speech Enhancement Ivan Shchekotov Pavel Andreev Oleg Ivanov Aibek Alanov Dmitry Vetrov 49 24 0 06 Apr 2022
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement Pavel Andreev Aibek Alanov Oleg Ivanov Dmitry Vetrov 94 43 0 24 Mar 2022
SpeechPainter: Text-conditioned Speech Inpainting Zalan Borsos Matthew Sharifi Marco Tagliasacchi 93 28 0 15 Feb 2022
Cross-attention conformer for context modeling in speech enhancement for ASR A. Narayanan Chung-Cheng Chiu Tom O'Malley Quan Wang Yanzhang He 68 14 0 30 Oct 2021
SoundStream: An End-to-End Neural Audio Codec Neil Zeghidour Alejandro Luebs Ahmed Omran Jan Skoglund Marco Tagliasacchi AI4TS 120 806 0 07 Jul 2021
Real-time Speech Frequency Bandwidth Extension Yunpeng Li Marco Tagliasacchi Oleg Rybakov Victor Ungureanu Dominik Roblek 73 49 0 21 Oct 2020
MicAugment: One-shot Microphone Style Transfer Zalan Borsos Yunpeng Li Beat Gfeller Marco Tagliasacchi 43 4 0 19 Oct 2020