StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models

StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

28 November 2023

Kazuki Yamauchi

Yuki Saito

Papers citing "StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models"

4 / 4 papers shown

Title
PodAgent: A Comprehensive Framework for Podcast Generation Yujia Xiao Lei He Haohan Guo Fenglong Xie Tan Lee 76 0 0 01 Mar 2025
Factor-Conditioned Speaking-Style Captioning Atsushi Ando Takafumi Moriya Shota Horiguchi Ryo Masumura 30 0 0 27 Jun 2024
LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning Masaya Kawamura Ryuichi Yamamoto Yuma Shirahata Takuya Hasumi Kentaro Tachibana VLM 22 5 0 12 Jun 2024
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model Kenichi Fujita Takanori Ashihara Hiroki Kanagawa Takafumi Moriya Yusuke Ijima 30 10 0 24 Apr 2023