WaveNet: A Generative Model for Raw Audio

12 September 2016

Papers citing "WaveNet: A Generative Model for Raw Audio"

50 / 3,038 papers shown

Title
Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Quality Text-to-Speech Method based on Contextual Semantic Understanding Tianyun Liu CLIP VLM 63 0 0 26 Feb 2025
SMT(LIA) Sampling with High Diversity Yong Lai Junjie Li Chuan Luo 47 0 0 25 Feb 2025
PuzzleFusion++: Auto-agglomerative 3D Fracture Assembly by Denoise and Verify Zhengqing Wang Jiacheng Chen Yasutaka Furukawa 64 5 0 24 Feb 2025
Everyday Speech in the Indian Subcontinent Utkarsh Pathak 54 1 0 24 Feb 2025
Beyond Fixed Variables: Expanding-variate Time Series Forecasting via Flat Scheme and Spatio-temporal Focal Learning Minbo Ma Kai Tang Huan Li Fei Teng Dalin Zhang Tianrui Li AI4TS 41 0 0 24 Feb 2025
An End-to-End Homomorphically Encrypted Neural Network Marcos Florencio Luiz Alencar Bianca Lima SyDa 46 0 0 22 Feb 2025
TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow Matching Wenxiang Guo Yu Zhang Changhao Pan Rongjie Huang Li Tang Ruiqi Li Zhiqing Hong Yongqi Wang Zhou Zhao 99 3 0 18 Feb 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
Vision-Enhanced Time Series Forecasting via Latent Diffusion Models Weilin Ruan Siru Zhong Haomin Wen Yuxuan Liang AI4TS 69 1 0 16 Feb 2025
Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition Khanh Nguyen Ghulam Mubashar Hassan Ajmal Saeed Mian 3DPC 49 0 0 15 Feb 2025
Harnessing Vision Models for Time Series Analysis: A Survey Jingchao Ni Ziming Zhao ChengAo Shen Hanghang Tong Dongjin Song Wei Cheng Dongsheng Luo Haifeng Chen AI4TS 77 1 0 13 Feb 2025
Hookpad Aria: A Copilot for Songwriters Chris Donahue Shih-Lun Wu Yewon Kim Dave Carlton Ryan Miyakawa John Thickstun 53 1 0 12 Feb 2025
What makes a good feedforward computational graph? Alex Vitvitskyi J. G. Araújo Marc Lackenby Petar Velickovic 80 1 0 10 Feb 2025
Investigating Compositional Reasoning in Time Series Foundation Models Willa Potosnak Cristian Challu Mononito Goswami Kin G. Olivares Michał Wiliński Nina Żukowska Artur Dubrawski ReLM AI4TS LRM 48 0 0 09 Feb 2025
Sequence models for continuous cell cycle stage prediction from brightfield images Louis-Alexandre Leger Maxine Leonardi Andrea Salati Felix Naef Martin Weigert 60 1 0 04 Feb 2025
Trustworthy Evaluation of Generative AI Models Zijun Gao Yan Sun 104 0 0 31 Jan 2025
VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching Ha-Yeong Choi Jaehan Park 34 0 0 29 Jan 2025
Towards Scalable and Stable Parallelization of Nonlinear RNNs Xavier Gonzalez Andrew Warrington Jimmy T.H. Smith Scott W. Linderman 85 8 0 17 Jan 2025
Explore the Use of Time Series Foundation Model for Car-Following Behavior Analysis Luwei Zeng Runze Yan AI4TS 38 0 0 13 Jan 2025
Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps Henry Li Ronen Basri Y. Kluger DiffM 54 2 0 13 Jan 2025
ARES: Auxiliary Range Expansion for Outlier Synthesis Eui-Soo Jung Hae-Hun Seo Hyun-Woo Jung Je-Geon Oh Yoon-Yeong Kim OODD 46 0 0 11 Jan 2025
Using Pre-trained LLMs for Multivariate Time Series Forecasting Malcolm Wolff Shenghao Yang Kari Torkkola Michael W. Mahoney AI4TS AIFin 46 1 0 10 Jan 2025
STContext: A Multifaceted Dataset for Developing Context-aware Spatio-temporal Crowd Mobility Prediction Models Liyue Chen Jiangyi Fang Tengfei Liu Fangyuan Gao Leye Wang AI4TS 31 0 0 08 Jan 2025
Neural Speech and Audio Coding: Modern AI Technology Meets Traditional Codecs Minje Kim Jan Skoglund 46 1 0 08 Jan 2025
Text2Data: Low-Resource Data Generation with Textual Control Shiyu Wang Yihao Feng Tian Lan Ning Yu Yu Bai R. Xu H. Wang Caiming Xiong S. DiffM 80 0 0 03 Jan 2025
TOTEM: TOkenized Time Series EMbeddings for General Time Series Analysis Sabera Talukder Yisong Yue Georgia Gkioxari AI4TS 45 12 0 03 Jan 2025
CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation Ji-Hoon Kim Hong-Sun Yang Yoon-Cheol Ju Il-Hwan Kim Byeong-Yeol Kim Joon Son Chung BDL 49 0 0 31 Dec 2024
Simultaneous Music Separation and Generation Using Multi-Track Latent Diffusion Models Tornike Karchkhadze M. Izadi Shlomo Dubnov DiffM 39 2 0 31 Dec 2024
Memory-Centric Computing: Recent Advances in Processing-in-DRAM O. Mutlu Ataberk Olgun Geraldo F. Oliveira Ismail Emir Yüksel 40 3 0 26 Dec 2024
Synthetic Time Series Data Generation for Healthcare Applications: A PCG Case Study Ainaz Jamshidi M. Arif Sabir Ali Kalhoro Alexander Gelbukh MedIm 72 1 0 17 Dec 2024
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree Xiangxiang Gao Weisheng Xie Yiwei Xiang Feng Ji 82 5 0 17 Dec 2024
Learning Latent Spaces for Domain Generalization in Time Series Forecasting Songgaojun Deng Maarten de Rijke CML AI4TS OOD BDL 68 0 0 15 Dec 2024
Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis Zhoulin Ji Chenhao Lin Hang Wang Chao Shen 102 0 0 12 Dec 2024
Non-Normal Diffusion Models Henry Li VLM DiffM 108 1 0 10 Dec 2024
Improving Source Extraction with Diffusion and Consistency Models Tornike Karchkhadze M. Izadi Shuo Zhang DiffM 82 1 0 09 Dec 2024
LMDM:Latent Molecular Diffusion Model For 3D Molecule Generation Xiang Chen DiffM 74 0 0 05 Dec 2024
Deep Learning Modeling Method for RF Devices Based on Uniform Noise Training Set Zhaokun Hu Yindong Xiao Houjun Wang Jiayong Yu Zihang Gao 69 0 0 05 Dec 2024
DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles Jiaxuan Liu Zhaoci Liu Y. Hu Yingying Gao Shilei Zhang Zhenhua Ling DiffM 75 1 0 04 Dec 2024
Deep Learning-Based Approach for Identification and Compensation of Nonlinear Distortions in Parametric Array Loudspeakers Mengtong Li Tao Zhuang Kai-Jyun Chen Jia-Xin Zhong Jing Lu 66 0 0 02 Dec 2024
Machine Learning Analysis of Anomalous Diffusion Wenjie Cai Yi Hu X. Qu Hui Zhao Gongyi Wang Jing Li Zihan Huang 67 1 0 02 Dec 2024
Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation Zilyu Ye Zhiyang Chen Tiancheng Li Zemin Huang Weijian Luo Guo-jun Qi DiffM 83 5 0 02 Dec 2024
Scaling Transformers for Low-Bitrate High-Quality Speech Coding Julian Parker Anton Smirnov Jordi Pons CJ Carr Zack Zukowski Zach Evans Xubo Liu 77 9 0 29 Nov 2024
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation Marco Pasini J. Nistal Stefan Lattner George Fazekas 69 3 0 27 Nov 2024
Disentangling the Complex Multiplexed DIA Spectra in De Novo Peptide Sequencing Zheng Ma Zeping Mao Ruixue Zhang Jiazhen Chen L. Xin Paul Shan A. Ghodsi Ming Li 75 0 0 24 Nov 2024
Nd-BiMamba2: A Unified Bidirectional Architecture for Multi-Dimensional Data Processing Hao Liu Mamba AI4CE 77 1 0 22 Nov 2024
VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space Armani Rodriguez S. Kokalj-Filipovic 70 0 0 22 Nov 2024
ESTVocoder: An Excitation-Spectral-Transformed Neural Vocoder Conditioned on Mel Spectrogram Xiao-Hang Jiang Hui-Peng Du Yang Ai Ye-Xin Lu Zhen-Hua Ling 28 0 0 18 Nov 2024
Multi-scale Generative Modeling for Fast Sampling Xiongye Xiao Shixuan Li Luzhe Huang Gengshuo Liu Trung-Kien Nguyen Yi Huang Di Chang Mykel J. Kochenderfer Paul Bogdan DiffM 49 1 0 14 Nov 2024
Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation Kuiyuan Zhang Zhongyun Hua Yushu Zhang Yifang Guo Tao Xiang 29 0 0 14 Nov 2024
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt Chih-Kai Yang Yu-Kuan Fu Chen An Li Yi-Cheng Lin Yu-Xiang Lin ... Ulin Sanga Xuanjun Chen Po-Chun Hsu Shu-Wen Yang Hung-yi Lee AuLLM 40 0 0 11 Nov 2024