Title
CartoonSing: Unifying Human and Nonhuman Timbres in Singing Generation Jionghao Han Jiatong Shi Zhuoyan Tao Yuxun Tang Yiwen Zhao Gus Xia Shinji Watanabe 136 0 0 26 Nov 2025
StylePitcher: Generating Style-Following and Expressive Pitch Curves for Versatile Singing Tasks Jingyue Huang Qihui Yang Fei Yueh Chen Julian McAuley Randal Leistikow Perry R. Cook Yongyi Zang 96 0 0 24 Oct 2025
R2-SVC: Towards Real-World Robust and Expressive Zero-shot Singing Voice Conversion Junjie Zheng Gongyu Chen Chaofan Ding Zihao Chen 102 1 0 23 Oct 2025
DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment Zongcai Du Guilin Deng Xiaofeng Guo Xin Gao Linke Li ... Fubo Han Siyu Yang Peng Liu Pan Zhong Qiang Fu DiffM 193 1 0 10 Oct 2025
SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment Yuxun Tang Lan Liu Wenhao Feng Yiwen Zhao Jionghao Han Yifeng Yu Jiatong Shi Qin Jin 152 0 0 02 Oct 2025
SingVERSE: A Diverse, Real-World Benchmark for Singing Voice Enhancement Shaohan Jiang Junan Zhang Yunjia Zhang Jing Yang Fan Fan Zhizheng Wu 129 0 0 25 Sep 2025
SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription Wei Tan Shun Lei Huaicheng Zhang Guangzheng Li Yixuan Zhang Hangting Chen Jianwei Yu Rongzhi Gu Dong Yu 65 1 0 22 Sep 2025
The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion To Singing Style Conversion Lester Phillip Violeta Xueyao Zhang Jiatong Shi Yusuke Yasuda Wen-Chin Huang Zhizheng Wu Tomoki Toda 108 2 0 19 Sep 2025
Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence Yerin Ryu Inseop Shin Chanwoo Kim 52 0 0 08 Sep 2025
Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation Xueyao Zhang Junan Zhang Yuancheng Wang Chaoren Wang Yuanzhe Chen Dongya Jia Zhuo Chen Zhizheng Wu DiffM 221 6 0 22 Aug 2025
Conan: A Chunkwise Online Network for Zero-Shot Adaptive Voice Conversion Yu Zhang Baotong Tian Z. Duan 449 0 0 19 Jul 2025
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains C. Wang Xiaojun Ye Xiaoran Pan Zihao Pan Haofan Wang Yiren Song LRM 488 2 0 24 May 2025
Neurodyne: Neural Pitch Manipulation with Representation Learning and Cycle-Consistency GAN Yicheng Gu Chaoren Wang Zhizheng Wu Lauri Juvela 459 3 0 21 May 2025
TCSinger 2: Customizable Multilingual Zero-shot Singing Voice SynthesisAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Yu Zhang Wenxiang Guo Changhao Pan Dongyu Yao Zhiyuan Zhu Ziyue Jiang Yuhan Wang Tao Jin Zhou Zhao VLM 459 6 0 20 May 2025
Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference AlignmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Xueyao Zhang Yijiao Wang Chaoren Wang Hui Yuan Zhuo Chen Zhizheng Wu 648 10 0 07 May 2025
Leveraging Pretrained Diffusion Models for Zero-Shot Part AssemblyInternational Joint Conference on Artificial Intelligence (IJCAI), 2025 Ruiyuan Zhang Qi Wang Jiaxiang Liu Yanzhe Zhang Yuchi Huo Chao Wu 139 0 0 01 May 2025
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting Yanzhe Zhang Wenxiang Guo Changhao Pan Zehan Zhu Tao Jin Zhou Zhao VGen 534 8 0 29 Apr 2025
Versatile Framework for Song Generation with Prompt-based Control Yanzhe Zhang Wenxiang Guo Changhao Pan Zehan Zhu Ruiqi Li ... Rongjie Huang Ruiyuan Zhang Zhiqing Hong Ziyue Jiang Zhou Zhao 564 6 0 27 Apr 2025
Serenade: A Singing Style Conversion Framework Based On Audio Infilling Lester Phillip Violeta Wen-Chin Huang Tomoki Toda 176 1 0 16 Mar 2025
TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow MatchingAAAI Conference on Artificial Intelligence (AAAI), 2025 Wenxiang Guo Yu Zhang Changhao Pan Rongjie Huang Li Tang Ruiqi Li Zhiqing Hong Yongqi Wang Zhou Zhao 818 14 0 18 Feb 2025
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? Kaixiong Gong Kaituo Feng Yangqiu Song Yibing Wang Mofan Cheng ... Jiaming Han Benyou Wang Yutong Bai Zhiyong Yang Xiangyu Yue MLLM AuLLM VLM 247 25 0 03 Dec 2024
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style ControlConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Yu Zhang Ziyue Jiang Ruiqi Li Changhao Pan Jinzheng He Rongjie Huang Chuxin Wang Zhou Zhao DiffM VLM 469 20 0 24 Sep 2024