UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation

Interspeech (Interspeech), 2021

15 June 2021

Papers citing "UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation"

50 / 94 papers shown

UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens

235

30 Oct 2025

SynthVC: Leveraging Synthetic Data for End-to-End Low Latency Streaming Voice Conversion

10 Oct 2025

Beyond Static Knowledge Messengers: Towards Adaptive, Fair, and Scalable Federated Learning for Medical AI

218

05 Oct 2025

NLDSI-BWE: Non Linear Dynamical Systems-Inspired Multi Resolution Discriminators for Speech Bandwidth Extension

Tarikul Islam Tamiti

Anomadarshi Barua

126

01 Oct 2025

AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds

117

04 Sep 2025

FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation

25 Aug 2025

Vocoder-Projected Feature Discriminator

140

25 Aug 2025

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

Alessio Falai

Ziyao Zhang

Akos Gangoly

108

25 Aug 2025

MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis

Jaskaran Singh

Amartya Roy Chowdhury

Raghav Prabhakar

Varshul C. W

05 Aug 2025

Enhancing Spectrogram Realism in Singing Voice Synthesis via Explicit Bandwidth Extension Prior to Vocoder

113

03 Aug 2025

Learning Neural Vocoder from Range-Null Space DecompositionInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

163

28 Jul 2025

Nonlinear Framework for Speech Bandwidth Extension

Tarikul Islam Tamiti

Nursad Mamun

Anomadarshi Barua

175

21 Jul 2025

Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ

Yunkee Chae

Kyogu Lee

134

19 Jun 2025

BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation

180

11 Jun 2025

SpINRv2: Implicit Neural Representation for Passband FMCW Radars

Harshvardhan Takawale

Nirupam Roy

195

09 Jun 2025

Comparative Analysis of Fast and High-Fidelity Neural Vocoders for Low-Latency Streaming Synthesis in Resource-Constrained Environments

260

04 Jun 2025

SwitchCodec: A High-Fidelity Nerual Audio Codec With Sparse Quantization

254

30 May 2025

DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio SynthesisIEEE Access (IEEE Access), 2025

Zeeshan Ahmad

Shudi Bao

Meng Chen

219

14 May 2025

L3AC: Towards a Lightweight and Lossless Audio Codec

302

07 Apr 2025

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

563

01 Apr 2025

SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System

431

29 Mar 2025

WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow MatchingNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

235

20 Mar 2025

MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

...

513

26 Feb 2025

High-Fidelity Music Vocoder using Neural Audio CodecsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

299

18 Feb 2025

FlashSR: One-step Versatile Audio Super-resolution via Diffusion DistillationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

Jaekwon Im

Juhan Nam

DiffM

327

18 Jan 2025

KALL-E:Autoregressive Speech Synthesis with Next-Distribution Prediction

425

22 Dec 2024

ESTVocoder: An Excitation-Spectral-Transformed Neural Vocoder Conditioned on Mel Spectrogram

210

18 Nov 2024

Wavehax: Aliasing-Free Neural Waveform Synthesis Based on 2D Convolution and Harmonic Prior for Reliable Complex Spectrogram Estimation

268

11 Nov 2024

MDCTCodec: A Lightweight MDCT-based Neural Audio Codec towards High Sampling Rate and Low Bitrate ScenariosSpoken Language Technology Workshop (SLT), 2024

271

01 Nov 2024

APCodec+: A Spectrum-Coding-Based High-Fidelity and High-Compression-Rate Neural Audio Codec with Staged Training ParadigmInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2024

218

30 Oct 2024

SNAC: Multi-Scale Neural Audio Codec

Hubert Siuzdak

Florian Grötschla

Luca A. Lanzendörfer

138

18 Oct 2024

Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTSConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Onkar Kishor Susladkar

Vishesh Tripathi

Biddwan Ahmed

126

09 Oct 2024

InstructSing: High-Fidelity Singing Voice Generation via Instructing YourselfSpoken Language Technology Workshop (SLT), 2024

Yong Chen

217

10 Sep 2024

FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion DistillationInterspeech (Interspeech), 2024

241

03 Sep 2024

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language ModelingInternational Conference on Learning Representations (ICLR), 2024

...

Rongjie Huang

Yidi Jiang

Qian Chen

Zhou Zhao

VLM

377

120

29 Aug 2024

Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

Sang-Hoon Lee

Ha-Yeong Choi

Seong-Whan Lee

AI4TS

236

15 Aug 2024

PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform GenerationInternational Conference on Learning Representations (ICLR), 2024

Sang-Hoon Lee

Ha-Yeong Choi

Seong-Whan Lee

OOD DiffM AI4TS

305

14 Aug 2024

Speech Editing -- a Summary

Tobias Kässmann

Yining Liu

Danni Liu

150

24 Jul 2024

Improving Unsupervised Clean-to-Rendered Guitar Tone Transformation Using GANs and Integrated Unaligned Clean Data

Yu-Hua Chen

Woosung Choi

Wei-Hsiang Liao

Marco A. Martínez-Ramírez

K. Cheuk

Yuki Mitsufuji

J. Jang

Yi-Hsuan Yang

183

22 Jun 2024

Period Singer: Integrating Periodic and Aperiodic Variational Autoencoders for Natural-Sounding End-to-End Singing Voice SynthesisInterspeech (Interspeech), 2024

Taewoo Kim

Choongsang Cho

Young Han Lee

AI4TS

148

14 Jun 2024

VISinger2+: End-to-End Singing Voice Synthesis Augmented by Self-Supervised Learning Representation

Yifeng Yu

Jiatong Shi

Yuning Wu

Shinji Watanabe

214

13 Jun 2024

RaD-Net 2: A causal two-stage repairing and denoising speech enhancement network with knowledge distillation and complex axial self-attention

Yuanjun Lv

Lei Xie

170

11 Jun 2024

JenGAN: Stacked Shifted Filters in GAN-Based Speech SynthesisInterspeech (Interspeech), 2024

Hyunjae Cho

Junhyeok Lee

Wonbin Jung

197

10 Jun 2024

BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform Generation

Hui-Peng Du

Ye-Xin Lu

Yang Ai

Zhen-Hua Ling

117

04 Jun 2024

HILCodec: High Fidelity and Lightweight Neural Audio Codec

261

08 May 2024

HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling

Chunhui Wang

Chang Zeng

Jian Zhao

Yong Chen

130

09 Mar 2024

Language-Codec: Bridging Discrete Codec Representations and Speech Language Models

338

19 Feb 2024

APCodec: A Neural Audio Codec with Parallel Amplitude and Phase Spectrum Encoding and Decoding

183

16 Feb 2024

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

...

Soledad López Gambino

366

112

12 Feb 2024

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

Shijia Liao

Shiyi Lan

Arun George Zachariah

125

31 Jan 2024