UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

Interspeech (Interspeech), 2021

15 June 2021

Papers citing "UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation"

50 / 94 papers shown

UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens

239

30 Oct 2025

SynthVC: Leveraging Synthetic Data for End-to-End Low Latency Streaming Voice Conversion

10 Oct 2025

Beyond Static Knowledge Messengers: Towards Adaptive, Fair, and Scalable Federated Learning for Medical AI

218

05 Oct 2025

NLDSI-BWE: Non Linear Dynamical Systems-Inspired Multi Resolution Discriminators for Speech Bandwidth Extension

Tarikul Islam Tamiti

Anomadarshi Barua

130

01 Oct 2025

AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds

117

04 Sep 2025

FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation

25 Aug 2025

Vocoder-Projected Feature Discriminator

140

25 Aug 2025

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

Alessio Falai

Ziyao Zhang

Akos Gangoly

111

25 Aug 2025

MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis

Jaskaran Singh

Amartya Roy Chowdhury

Raghav Prabhakar

Varshul C. W

05 Aug 2025

Enhancing Spectrogram Realism in Singing Voice Synthesis via Explicit Bandwidth Extension Prior to Vocoder

113

03 Aug 2025

Learning Neural Vocoder from Range-Null Space DecompositionInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

168

28 Jul 2025

Nonlinear Framework for Speech Bandwidth Extension

Tarikul Islam Tamiti

Nursad Mamun

Anomadarshi Barua

176

21 Jul 2025

Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ

Yunkee Chae

Kyogu Lee

134

19 Jun 2025

BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation

189

11 Jun 2025

SpINRv2: Implicit Neural Representation for Passband FMCW Radars

Harshvardhan Takawale

Nirupam Roy

201

09 Jun 2025

Comparative Analysis of Fast and High-Fidelity Neural Vocoders for Low-Latency Streaming Synthesis in Resource-Constrained Environments

261

04 Jun 2025

SwitchCodec: A High-Fidelity Nerual Audio Codec With Sparse Quantization

256

30 May 2025

DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio SynthesisIEEE Access (IEEE Access), 2025

Zeeshan Ahmad

Shudi Bao

Meng Chen

222

14 May 2025

L3AC: Towards a Lightweight and Lossless Audio Codec

303

07 Apr 2025

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

564

01 Apr 2025

SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System

437

29 Mar 2025

WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow MatchingNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

235

20 Mar 2025

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

...

513

26 Feb 2025

High-Fidelity Music Vocoder using Neural Audio CodecsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

303

18 Feb 2025

FlashSR: One-step Versatile Audio Super-resolution via Diffusion DistillationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

Jaekwon Im

Juhan Nam

DiffM

328

18 Jan 2025

KALL-E:Autoregressive Speech Synthesis with Next-Distribution Prediction

428

22 Dec 2024

ESTVocoder: An Excitation-Spectral-Transformed Neural Vocoder Conditioned on Mel Spectrogram

211

18 Nov 2024

Wavehax: Aliasing-Free Neural Waveform Synthesis Based on 2D Convolution and Harmonic Prior for Reliable Complex Spectrogram Estimation

268

11 Nov 2024

MDCTCodec: A Lightweight MDCT-based Neural Audio Codec towards High Sampling Rate and Low Bitrate ScenariosSpoken Language Technology Workshop (SLT), 2024

279

01 Nov 2024

APCodec+: A Spectrum-Coding-Based High-Fidelity and High-Compression-Rate Neural Audio Codec with Staged Training ParadigmInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2024

222

30 Oct 2024

SNAC: Multi-Scale Neural Audio Codec

Hubert Siuzdak

Florian Grötschla

Luca A. Lanzendörfer

142

18 Oct 2024

Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTSConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Onkar Kishor Susladkar

Vishesh Tripathi

Biddwan Ahmed

135

09 Oct 2024

InstructSing: High-Fidelity Singing Voice Generation via Instructing YourselfSpoken Language Technology Workshop (SLT), 2024

Yong Chen

218

10 Sep 2024

FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion DistillationInterspeech (Interspeech), 2024

242

03 Sep 2024

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language ModelingInternational Conference on Learning Representations (ICLR), 2024

...

Rongjie Huang

Yidi Jiang

Qian Chen

Zhou Zhao

VLM

387

120

29 Aug 2024

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

Sang-Hoon Lee

Ha-Yeong Choi

Seong-Whan Lee

AI4TS

237

15 Aug 2024

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform GenerationInternational Conference on Learning Representations (ICLR), 2024

Sang-Hoon Lee

Ha-Yeong Choi

Seong-Whan Lee

OOD DiffM AI4TS

305

14 Aug 2024

Speech Editing -- a Summary

Tobias Kässmann

Yining Liu

Danni Liu

154

24 Jul 2024

Improving Unsupervised Clean-to-Rendered Guitar Tone Transformation Using GANs and Integrated Unaligned Clean Data

Yu-Hua Chen

Woosung Choi

Wei-Hsiang Liao

Marco A. Martínez-Ramírez

K. Cheuk

Yuki Mitsufuji

J. Jang

Yi-Hsuan Yang

189

22 Jun 2024

Period Singer: Integrating Periodic and Aperiodic Variational Autoencoders for Natural-Sounding End-to-End Singing Voice SynthesisInterspeech (Interspeech), 2024

Taewoo Kim

Choongsang Cho

Young Han Lee

AI4TS

149

14 Jun 2024

VISinger2+: End-to-End Singing Voice Synthesis Augmented by Self-Supervised Learning Representation

Yifeng Yu

Jiatong Shi

Yuning Wu

Shinji Watanabe

220

13 Jun 2024

RaD-Net 2: A causal two-stage repairing and denoising speech enhancement network with knowledge distillation and complex axial self-attention

Yuanjun Lv

Lei Xie

175

11 Jun 2024

JenGAN: Stacked Shifted Filters in GAN-Based Speech SynthesisInterspeech (Interspeech), 2024

Hyunjae Cho

Junhyeok Lee

Wonbin Jung

202

10 Jun 2024

BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform Generation

Hui-Peng Du

Ye-Xin Lu

Yang Ai

Zhen-Hua Ling

118

04 Jun 2024

HILCodec: High Fidelity and Lightweight Neural Audio Codec

262

08 May 2024

HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling

Chunhui Wang

Chang Zeng

Jian Zhao

Yong Chen

137

09 Mar 2024

Language-Codec: Bridging Discrete Codec Representations and Speech Language Models

341

19 Feb 2024

APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding

183

16 Feb 2024

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

...

Soledad López Gambino

372

111

12 Feb 2024

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

Shijia Liao

Shiyi Lan

Arun George Zachariah

125

31 Jan 2024