High Fidelity Neural Audio Compression

24 October 2022

Yossi Adi

Papers citing "High Fidelity Neural Audio Compression"

36 / 86 papers shown

Title
Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling Yuepeng Jiang Tao Li Fengyu Yang Lei Xie Meng Meng Yujun Wang 38 2 0 09 Jun 2024
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling Zeyue Tian Zhaoyang Liu Ruibin Yuan Jiahao Pan Xiaoqiang Huang Xu Tan Xu Tan Qifeng Chen Y. Guo VGen 102 16 0 06 Jun 2024
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes Trung D. Q. Dang David Aponte Dung Tran K. Koishida 36 3 0 05 Jun 2024
Better & Faster Large Language Models via Multi-token Prediction Fabian Gloeckle Badr Youbi Idrissi Baptiste Rozière David Lopez-Paz Gabriele Synnaeve 24 93 0 30 Apr 2024
Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis Shivam Mehta Anna Deichler Jim O'Regan Birger Moëll Jonas Beskow G. Henter Simon Alexanderson 46 4 0 30 Apr 2024
VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing Philip Anastassiou Zhenyu Tang Kainan Peng Dongya Jia Jiaxin Li Ming Tu Yuping Wang Yuxuan Wang Mingbo Ma 42 4 0 10 Apr 2024
The VoicePrivacy 2024 Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Pierre Champion Sarina Meyer Xin Wang Emmanuel Vincent Michele Panariello Nicholas W. D. Evans Junichi Yamagishi Massimiliano Todisco 36 21 0 03 Apr 2024
A Diffusion-Based Generative Equalizer for Music Restoration Eloi Moliner Maija Turunen Filip Elvander Vesa Valimaki 26 5 0 27 Mar 2024
High-Fidelity Neural Phonetic Posteriorgrams Cameron Churchwell Max Morrison Bryan Pardo 38 4 0 27 Feb 2024
D-Flow: Differentiating through Flows for Controlled Generation Heli Ben-Hamu Omri Puny Itai Gat Brian Karrer Uriel Singer Y. Lipman 41 24 0 21 Feb 2024
Natural language guidance of high-fidelity text-to-speech with synthetic annotations Daniel Lyth Simon King 16 35 0 02 Feb 2024
Proactive Detection of Voice Cloning with Localized Watermarking Robin San Roman Pierre Fernandez Alexandre Défossez Teddy Furon Tuan Tran Hady ElSahar 49 40 0 30 Jan 2024
VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech Chenpeng Du Yiwei Guo Hankun Wang Yifan Yang Zhikang Niu Shuai Wang Hui Zhang Xie Chen Kai Yu VLM 22 25 0 25 Jan 2024
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit Xueyao Zhang Liumeng Xue Yicheng Gu Yuancheng Wang Haorui He ... Mingxuan Wang Jun Han Kai Chen Haizhou Li Zhizheng Wu 27 26 0 15 Dec 2023
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models Yunfei Chu Jin Xu Xiaohuan Zhou Qian Yang Shiliang Zhang Zhijie Yan Chang Zhou Jingren Zhou AuLLM 30 267 0 14 Nov 2023
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 21 24 0 08 Nov 2023
InstrumentGen: Generating Sample-Based Musical Instruments From Text S. Nercessian Johannes Imort 27 2 0 07 Nov 2023
Content-based Controls For Music Large Language Modeling Liwei Lin Gus Xia Junyan Jiang Yixiao Zhang 18 14 0 26 Oct 2023
An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification Jiaqi Li Li Wang Liumeng Xue Lei Wang Zhizheng Wu AAML 25 3 0 09 Oct 2023
Discrete Audio Representation as an Alternative to Mel-Spectrograms for Speaker and Speech Recognition Krishna C. Puvvada Nithin Rao Koluguri Kunal Dhawan Jagadeesh Balam Boris Ginsburg 24 12 0 19 Sep 2023
FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec Zhihao Du Shiliang Zhang Kai Hu Siqi Zheng 34 54 0 14 Sep 2023
Learning Speech Representation From Contrastive Token-Acoustic Pretraining Chunyu Qiang Hao Li Yixin Tian Ruibo Fu Tao Wang Longbiao Wang J. Dang 21 5 0 01 Sep 2023
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes Zhaohui Li Haitao Wang Xinghua Jiang 40 1 0 14 Aug 2023
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer Xiaofei Wang Manthan Thakker Zhuo Chen Naoyuki Kanda Sefik Emre Eskimez Sanyuan Chen M. Tang Shujie Liu Jinyu Li Takuya Yoshioka 18 79 0 14 Aug 2023
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 60 37 0 09 Aug 2023
HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer Sang-Hoon Lee Haram Choi H. Oh Seong-Whan Lee BDL 23 9 0 30 Jul 2023
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding Chunyu Qiang Hao Li Hao Ni He Qu Ruibo Fu Tao Wang Longbiao Wang J. Dang DiffM 30 8 0 28 Jul 2023
Edge Storage Management Recipe with Zero-Shot Data Compression for Road Anomaly Detection Yeonghyeon Park U. Gim Myung Jin Kim 19 0 0 10 Jul 2023
SoundStorm: Efficient Parallel Audio Generation Zalan Borsos Matthew Sharifi Damien Vincent Eugene Kharitonov Neil Zeghidour Marco Tagliasacchi 23 97 0 16 May 2023
Leveraging Neural Representations for Audio Manipulation Scott H. Hawley C. Steinmetz 25 2 0 10 Apr 2023
Native Multi-Band Audio Coding within Hyper-Autoencoded Reconstruction Propagation Networks Darius Petermann Inseon Jang Minje Kim 16 1 0 14 Mar 2023
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 26 7 0 06 Mar 2023
InstructTTS: Modelling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt Dongchao Yang Songxiang Liu Rongjie Huang Chao Weng H. Meng DiffM VLM 31 85 0 31 Jan 2023
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers Chengyi Wang Sanyuan Chen Yu-Huan Wu Zi-Hua Zhang Long Zhou ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei 43 641 0 05 Jan 2023
Audio Language Modeling using Perceptually-Guided Discrete Representations Felix Kreuk Yaniv Taigman Adam Polyak Jade Copet Gabriel Synnaeve Alexandre Défossez Yossi Adi 27 4 0 02 Nov 2022
Generative Spoken Language Modeling from Raw Audio Kushal Lakhotia Evgeny Kharitonov Wei-Ning Hsu Yossi Adi Adam Polyak ... Tu Nguyen Jade Copet Alexei Baevski A. Mohamed Emmanuel Dupoux AuLLM 182 336 0 01 Feb 2021