SECap: Speech Emotion Captioning with Large Language Model

SECap: Speech Emotion Captioning with Large Language Model

16 December 2023

Zhiyong Wu

Papers citing "SECap: Speech Emotion Captioning with Large Language Model"

15 / 15 papers shown

Title
Dopamine Audiobook: A Training-free MLLM Agent for Emotional and Human-like Audiobook Generation Yan Rong Shan Yang Guangzhi Lei Li Liu 23 0 0 15 Apr 2025
Large Language Models Meet Contrastive Learning: Zero-Shot Emotion Recognition Across Languages Heqing Zou Fengmao Lv Desheng Zheng E. Chng D. Rajan 34 0 0 25 Mar 2025
Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition Rui Liu Hongyu Yuan H. Li 38 0 0 03 Jan 2025
Open-vocabulary Multimodal Emotion Recognition: Dataset, Metric, and Benchmark Zheng Lian Haiyang Sun Licai Sun Lan Chen Haoyu Chen ... Rui Liu Shan Liang Ya Li Jiangyan Yi Jianhua Tao VLM 25 0 0 02 Oct 2024
Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech Wonjune Kang J. Jia Chunyang Wu Wei Zhou Egor Lakomkin ... Leda Sari Suyoun Kim Ke Li Jay Mahadeokar Ozlem Kalinli AuLLM 24 2 0 02 Oct 2024
Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data Kota Dohi Aoi Ito Harsh Purohit Tomoya Nishida Takashi Endo Y. Kawaguchi 19 3 0 25 Sep 2024
SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description Zeyu Jin Jia Jia Qixin Wang Kehan Li Shuoyi Zhou Songtao Zhou Xiaoyu Qin Zhiyong Wu 27 10 0 24 Aug 2024
Language Model Can Listen While Speaking Ziyang Ma Yakun Song Chenpeng Du Jian Cong Zhuo Chen Yuping Wang Y. Wang Xie Chen AuLLM 29 23 0 05 Aug 2024
AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition Zheng Lian Haiyang Sun Licai Sun Jiangyan Yi Bin Liu Jianhua Tao 43 2 0 10 Jul 2024
Factor-Conditioned Speaking-Style Captioning Atsushi Ando Takafumi Moriya Shota Horiguchi Ryo Masumura 30 0 0 27 Jun 2024
AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation Yasheng Sun Wenqing Chu Hang Zhou Kaisiyuan Wang Hideki Koike 32 5 0 25 Feb 2024
E-chat: Emotion-sensitive Spoken Dialogue System with Large Language Models Hongfei Xue Yuhao Liang Bingshen Mu Shiliang Zhang Mengzhe Chen Qian Chen Lei Xie AuLLM 19 9 0 31 Dec 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 4,048 0 24 May 2022
Improving the Performance of Automated Audio Captioning via Integrating the Acoustic and Semantic Information Zhongjie Ye Helin Wang Dongchao Yang Yuexian Zou 32 27 0 12 Oct 2021
A Framework for the Robust Evaluation of Sound Event Detection Cagdas Bilen Giacomo Ferroni Francesco Tuveri Juan Azcarreta Sacha Krstulović 32 162 0 18 Oct 2019