v1v2 (latest)

LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models

IEEE Signal Processing Letters (IEEE SPL), 2023

18 June 2023

ArXiv (abs)PDF HTML Github (399★)

Papers citing "LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models"

24 / 24 papers shown

FreeTalk:A plug-and-play and black-box defense against speech synthesis attacks

143

30 Aug 2025

Conan: A Chunkwise Online Network for Zero-Shot Adaptive Voice Conversion

Yu Zhang

Baotong Tian

Z. Duan

657

19 Jul 2025

StarVC: A Unified Auto-Regressive Framework for Joint Text and Speech Generation in Voice Conversion

240

03 Jun 2025

Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained RepresentationsIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2024

419

15 Mar 2025

AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented RealityProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2025

Brandon Woodard

Margarita Geleta

Joseph J. LaViola Jr.

Andrea Fanelli

Rhonda Wilson

1.0K

05 Feb 2025

VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow MatchingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

Ha-Yeong Choi

Jaehan Park

377

29 Jan 2025

ZSVC: Zero-shot Style Voice Conversion with Disentangled Latent Diffusion Models and Adversarial TrainingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

355

08 Jan 2025

CoDiff-VC: A Codec-Assisted Diffusion Model for Zero-shot Voice Conversion

552

28 Nov 2024

Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre ModelingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Yuguang Yang

Yu Pan

Jixun Yao

Xiang Zhang

Jianhao Ye

Hongbin Zhou

Lei Xie

Lei Ma

Jianjun Zhao

221

02 Oct 2024

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

Sijing Chen

Laipeng He

...

Xiang Zhang

355

18 Sep 2024

StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice ConversionIEEE Signal Processing Letters (SPL), 2024

Yuanzhe Chen

326

05 Aug 2024

Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

334

01 Aug 2024

Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training StrategyInterspeech (Interspeech), 2024

Yuanjun Lv

Lei Xie

183

14 Jun 2024

Addressing Index Collapse of Large-Codebook Speech Tokenizer with Dual-Decoding Product-Quantized Variational Auto-Encoder

Helen Meng

284

05 Jun 2024

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Philip Anastassiou

Jiawei Chen

Jingshu Chen

Yuanzhe Chen

Zhuo Chen

...

406

316

04 Jun 2024

A Survey of Deep Learning Audio Generation Methods

Matej Bozic

Marko Horvat

VLM MedIm

351

31 May 2024

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Yuancheng Wang

Xu Tan

...

Jiang Bian

562

325

05 Mar 2024

StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice ConversionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Lei Xie

381

19 Jan 2024

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross AttentionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Junjie Li

Yiwei Guo

Xie Chen

Kai Yu

347

14 Dec 2023

Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion

A. R. Bargum

Stefania Serafin

Cumhur Erkut

325

14 Nov 2023

Vec-Tok Speech: speech vectorization and tokenization for neural speech generationIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2023

Heng Lu

Lei Xie

443

11 Oct 2023

UniAudio: An Audio Foundation Model Toward Universal Audio Generation

Dongchao Yang

Jinchuan Tian

Xuejiao Tan

Rongjie Huang

Songxiang Liu

...

Jiang Bian

Xixin Wu

Zhou Zhao

Shinji Watanabe

Helen M. Meng

CVBM AuLLM

646

193

01 Oct 2023

Speaker anonymization using neural audio codec language modelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

256

25 Sep 2023

Sparks of Large Audio Models: A Survey and Outlook

...

Björn W. Schuller

833

24 Aug 2023