SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description

ACM Multimedia (MM), 2024

24 August 2024

Shuoyi Zhou

Songtao Zhou

Xiaoyu Qin

Zhiyong Wu

ArXiv (abs)PDF HTML Github (184★)

Papers citing "SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description"

15 / 15 papers shown

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

...

749

16 Nov 2025

UltraVoice: Scaling Fine-Grained Style-Controlled Speech Conversations for Spoken Dialogue Models

181

26 Oct 2025

HiStyle: Hierarchical Style Embedding Predictor for Text-Prompt-Guided Controllable Speech Synthesis

153

30 Sep 2025

MoE-TTS: Enhancing Out-of-Domain Text Understanding for Description-based TTS via Mixture-of-Experts

173

15 Aug 2025

$$\text{M}^3\text{PDB}$: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation$

\text{M}^3\text{PDB}

: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation

207

13 Aug 2025

InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems

330

19 Jun 2025

RA-CLAP: Relation-Augmented Emotional Speaking Style Contrastive Language-Audio Pretraining For Speech Retrieval

...

275

26 May 2025

Dopamine Audiobook: A Training-free MLLM Agent for Emotional and Immersive Audiobook Generation

416

15 Apr 2025

QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and DescriptionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

572

26 Mar 2025

Scaling Rich Style-Prompted Text-to-Speech Datasets

562

06 Mar 2025

Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

...

362

135

03 Mar 2025

PodAgent: A Comprehensive Framework for Podcast GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

1.0K

01 Mar 2025

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

445

25 Jan 2025

VoxInstruct: Expressive Human Instruction-to-Speech Generation with Unified Multilingual Codec Language ModellingACM Multimedia (MM), 2024

Yixuan Zhou

Xiaoyu Qin

Zeyu Jin

Shuoyi Zhou

Shun Lei

Songtao Zhou

Zhiyong Wu

Jia Jia

AuLLM

398

28 Aug 2024

Baichuan 2: Open Large-scale Language Models

...

1.0K

966

19 Sep 2023