WaveNet: A Generative Model for Raw Audio

12 September 2016

Papers citing "WaveNet: A Generative Model for Raw Audio"

50 / 3,038 papers shown

Title
Sketching With Your Voice: "Non-Phonorealistic" Rendering of Sounds via Vocal Imitation Matthew Caren Kartik Chandra J. Tenenbaum Jonathan Ragan-Kelley Karima Ma 33 0 0 20 Sep 2024
DiffSSD: A Diffusion-Based Dataset For Speech Forensics Kratika Bhagtani Amit Kumar Singh Yadav Paolo Bestagini Edward J. Delp DiffM 18 1 0 19 Sep 2024
A quest through interconnected datasets: lessons from highly-cited ICASSP papers Cynthia C. S. Liem Doğa Taşcılar Andrew M. Demetriou 17 0 0 19 Sep 2024
ViolinDiff: Enhancing Expressive Violin Synthesis with Pitch Bend Conditioning Daewoong Kim Hao-Wen Dong Dasaem Jeong 18 0 0 19 Sep 2024
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild Jee-weon Jung Yihan Wu Xin Wang Ji-Hoon Kim Soumi Maiti ... Joon Son Chung Wangyou Zhang Seyun Um Shinnosuke Takamichi Shinji Watanabe 65 1 0 18 Sep 2024
BAD: Bidirectional Auto-regressive Diffusion for Text-to-Motion Generation Seyed Rohollah Hosseyni Ali Ahmad Rahmani S. J. Seyedmohammadi Sanaz Seyedin Arash Mohammadi DiffM 40 5 0 17 Sep 2024
Implicit Reasoning in Deep Time Series Forecasting Willa Potosnak Cristian Challu Mononito Goswami Michał Wiliński Nina Żukowska Artur Dubrawski ReLM AI4TS LRM 35 2 0 17 Sep 2024
PixelBytes: Catching Unified Representation for Multimodal Generation Fabien Furfaro 11 0 0 16 Sep 2024
Speaker Contrastive Learning for Source Speaker Tracing Qing Wang Hongmei Guo Jian Kang Mengjie Du Jie Li Xiao-Lei Zhang Lei Xie 25 0 0 16 Sep 2024
RF Challenge: The Data-Driven Radio Frequency Signal Separation Challenge A. Lancho Amir Weiss Gary C. F. Lee T. Jayashankar Binoy G. Kurien Yury Polyanskiy Gregory W. Wornell 40 0 0 13 Sep 2024
MambaFoley: Foley Sound Generation using Selective State-Space Models Marco Furio Colombo Francesca Ronchini Luca Comanducci Fabio Antonacci Mamba 20 1 0 13 Sep 2024
Zero-Shot Sing Voice Conversion: built upon clustering-based phoneme representations Wangjin Zhou Fengrun Zhang Yiming Liu Wenhao Guan Yi Zhao He Qu 20 1 0 12 Sep 2024
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings Tanisha Hisariya Huan Zhang Jinhua Liang 29 3 0 12 Sep 2024
InstructSing: High-Fidelity Singing Voice Generation via Instructing Yourself Chang Zeng Chunhui Wang Xiaoxiao Miao Jian Zhao Zhonglin Jiang Yong Chen 33 0 0 10 Sep 2024
Multi-Source Music Generation with Latent Diffusion Zhongweiyang Xu Debottam Dutta Yu-Lin Wei Romit Roy Choudhury DiffM 40 1 0 10 Sep 2024
VE: Modeling Multivariate Time Series Correlation with Variate Embedding Shangjiong Wang Zhihong Man Zhengwei Cao Jinchuan Zheng Zhikang Ge AI4TS 28 1 0 10 Sep 2024
Cross-attention Inspired Selective State Space Models for Target Sound Extraction Donghang Wu Yiwen Wang Xihong Wu T. Qu Mamba 32 3 0 07 Sep 2024
Investigating Neural Audio Codecs for Speech Language Model-Based Speech Generation Jiaqi Li Dongmei Wang Xiaofei Wang Yao Qian Long Zhou ... Junkun Chen Sheng Zhao Jinyu Li Zhizheng Wu Michael Zeng AuLLM 30 2 0 06 Sep 2024
Applications and Advances of Artificial Intelligence in Music Generation:A Review Yanxu Chen Linshu Huang Tian Gou MGen 31 2 0 03 Sep 2024
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka Li-Wei Chen Hung-Shin Lee Chen-Chi Chang VLM 27 0 0 03 Sep 2024
A Framework for Synthetic Audio Conversations Generation using Large Language Models Kaung Myat Kyaw Jonathan Hoyin Chan SyDa 29 2 0 02 Sep 2024
AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge Kirill Borodin Vasiliy Kudryavtsev Dmitrii Korzh Alexey Efimenko Grach Mkrtchian Mikhail Gorodnichev Oleg Y. Rogov 41 1 0 30 Aug 2024
Short-Term Electricity-Load Forecasting by Deep Learning: A Comprehensive Survey Qi Dong Rubing Huang Chenhui Cui Dave Towey Ling Zhou Jinyu Tian Jianzhou Wang AI4TS 19 1 0 29 Aug 2024
LCM-SVC: Latent Diffusion Model Based Singing Voice Conversion with Inference Acceleration via Latent Consistency Distillation Shihao Chen Yu Gu Jianwei Cui Jie Zhang Rilin Chen Lirong Dai 34 2 0 22 Aug 2024
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound Junwon Lee Jaekwon Im Dabin Kim Juhan Nam VGen 40 9 0 21 Aug 2024
Navigating Spatio-Temporal Heterogeneity: A Graph Transformer Approach for Traffic Forecasting Jianxiang Zhou Erdong Liu Wei Chen Siru Zhong Yuxuan Liang AI4TS 29 0 0 20 Aug 2024
The Evolution of Reinforcement Learning in Quantitative Finance: A Survey Nikolaos Pippas Cagatay Turkay Elliot A. Ludvig AIFin 89 3 0 20 Aug 2024
Meta-Learning in Audio and Speech Processing: An End to End Comprehensive Review Athul Raimon Shubha Masti Shyam K Sateesh Siyani Vengatagiri Bhaskarjyoti Das VLM AI4TS 25 1 0 19 Aug 2024
Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language Manjil Karki Pratik Shakya Sandesh Acharya Ravi Pandit Dinesh Gothe 24 0 0 19 Aug 2024
Reparameterized Multi-Resolution Convolutions for Long Sequence Modelling Harry Jake Cunningham Giorgio Giannone Mingtian Zhang M. Deisenroth 28 0 0 18 Aug 2024
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee OOD DiffM AI4TS 43 5 0 14 Aug 2024
Advancing Spatio-Temporal Processing in Spiking Neural Networks through Adaptation Maximilian Baronig Romain Ferrand Silvester Sabathiel R. Legenstein 40 4 0 14 Aug 2024
VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders Yubing Cao Yongming Li Liejun Wang Yinfeng Yu 23 0 0 13 Aug 2024
Computability of Classification and Deep Learning: From Theoretical Limits to Practical Feasibility through Quantization Holger Boche Vít Fojtík Adalbert Fono Gitta Kutyniok 35 0 0 12 Aug 2024
A Methodological Report on Anomaly Detection on Dynamic Knowledge Graphs Xiaohua Lu Leshanshui Yang 48 0 0 12 Aug 2024
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing Chunyu Qiang Wang Geng Yi Zhao Ruibo Fu Tao Wang ... Chen Zhang Hao Che Longbiao Wang Jianwu Dang Jianhua Tao AI4TS 36 0 0 11 Aug 2024
ADD 2023: Towards Audio Deepfake Detection and Analysis in the Wild Jiangyan Yi Chu Yuan Zhang Jianhua Tao Chenglong Wang Xinrui Yan Yong Ren Hao Gu Junzuo Zhou 50 1 0 09 Aug 2024
Hyper Recurrent Neural Network: Condition Mechanisms for Black-box Audio Effect Modeling Yen-Tung Yeh Wen-Yi Hsiao Yi-Hsuan Yang 26 6 0 09 Aug 2024
Digital Avatars: Framework Development and Their Evaluation Timothy Rupprecht Sung-En Chang Yushu Wu Lei Lu Enfu Nan ... Zhimin Li Zhijun Hu Yumei He David Kaeli Yanzhi Wang 23 0 0 07 Aug 2024
Central Kurdish Text-to-Speech Synthesis with Novel End-to-End Transformer Training Hawraz A. Ahmad Tarik A. Rashid 33 0 0 06 Aug 2024
Automatic Voice Identification after Speech Resynthesis using PPG Thibault Gaudier Marie Tahon Anthony Larcher Yannick Esteve 40 0 0 05 Aug 2024
Generating High-quality Symbolic Music Using Fine-grained Discriminators Zhedong Zhang Liang-Sheng Li Jiehua Zhang Zhenghui Hu Hongkui Wang Chenggang Yan Jian Yang Yuankai Qi 37 2 0 03 Aug 2024
Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model F. Mahlow André Felipe Zanella Stefano Recanatesi Regilene Aparecida Sarzi Ribeiro 27 1 0 01 Aug 2024
FTuner: A Fast Dynamic Shape Tensors Program Auto-Tuner for Deep Learning Compilers Pengyu Mu Linquan Wei Yi Liu Rui Wang 25 0 0 31 Jul 2024
Aircraft Trajectory Segmentation-based Contrastive Coding: A Framework for Self-supervised Trajectory Representation Thaweerath Phisannupawong J. J. Damanik Han-Lim Choi AI4TS SSL 16 2 0 29 Jul 2024
Wavespace: A Highly Explorable Wavetable Generator Hazounne Lee Kihong Kim Sungho Lee Kyogu Lee 37 0 0 29 Jul 2024
Long Range Switching Time Series Prediction via State Space Model Jiaming Zhang Yang Ding Yunfeng Gao 29 0 0 27 Jul 2024
Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks Mahmoud Salhab H. Harmanani 19 0 0 26 Jul 2024
SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection Yi Zhu Surya Koppisetti Trang Tran Gaurav Bharaj 44 9 0 26 Jul 2024
Speech Editing -- a Summary Tobias Kässmann Yining Liu Danni Liu 29 0 0 24 Jul 2024