Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition

12 October 2021

Li-Wei Chen

Papers citing "Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition"

50 / 55 papers shown

Title
Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers Aneesha Sampath James Tavernor E. Provost 46 0 0 17 Feb 2025
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition Ruoyu Zhao Xiantao Jiang Fei Yu Victor C.M. Leung Tao Wang S. Zhang 30 0 0 06 Jan 2025
Investigating Acoustic-Textual Emotional Inconsistency Information for Automatic Depression Detection Rongfeng Su Changqing Xu Xinyi Wu Feng Xu Xie Chen Lan Wangt Nan Yan 29 0 0 09 Dec 2024
NoLoR: An ASR-Based Framework for Expedited Endangered Language Documentation with Neo-Aramaic as a Case Study Matthew Nazari 65 0 0 06 Dec 2024
End-to-End Integration of Speech Emotion Recognition with Voice Activity Detection using Self-Supervised Learning Features Natsuo Yamashita Masaaki Yamamoto Y. Kawaguchi 26 0 0 17 Oct 2024
Can We Estimate Purchase Intention Based on Zero-shot Speech Emotion Recognition? Ryotaro Nagase Takashi Sumiyoshi Natsuo Yamashita Kota Dohi Y. Kawaguchi 23 0 0 12 Oct 2024
Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions Jinyi Mi Xiaohan Shi D. Ma Jiajun He Takuya Fujimura Tomoki Toda 23 0 0 29 Sep 2024
Strong Alone, Stronger Together: Synergizing Modality-Binding Foundation Models with Optimal Transport for Non-Verbal Emotion Recognition Orchid Chetia Phukan Mohd Mujtaba Akhtar Girish Swarup Ranjan Behera Sishir Kalita Arun Balaji Buduru Rajesh Sharma S. R Mahadeva Prasanna EgoV 26 0 0 21 Sep 2024
Whisper-SV: Adapting Whisper for Low-data-resource Speaker Verification Li Lyna Zhang Ning Jiang Qing Wang Yuehong Li Quan Lu Lei Xie 34 6 0 14 Jul 2024
A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition Shreya G. Upadhyay Carlos Busso Chi-Chun Lee 34 3 0 06 Jul 2024
What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark Adham Ibrahim Shady Shehata Ajinkya Kulkarni Mukhtar Mohamed Muhammad Abdul-Mageed 19 2 0 14 Jun 2024
Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations Bulat Khaertdinov Pedro Jeuris Annanda Sousa Enrique Hortal 25 1 0 12 Jun 2024
GMP-TL: Gender-augmented Multi-scale Pseudo-label Enhanced Transfer Learning for Speech Emotion Recognition Yu Pan Yuguang Yang Heng Lu Lei Ma Jianjun Zhao 37 1 0 03 May 2024
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition Dongyuan Li Ying Zhang Yusong Wang Funakoshi Kataro Manabu Okumura 21 1 0 01 May 2024
Parameter Efficient Fine Tuning: A Comprehensive Analysis Across Applications Charith Chandra Sai Balne S. Bhaduri Tamoghna Roy Vinija Jain Aman Chadha 32 12 0 21 Apr 2024
Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction Tobias Hallmen Fabian Deuser Norbert Oswald Elisabeth André 33 2 0 18 Mar 2024
Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART Aniket Tathe Anand Kamble Suyash Kumbharkar Atharva Bhandare Anirban C. Mitra 30 1 0 01 Mar 2024
STAA-Net: A Sparse and Transferable Adversarial Attack for Speech Emotion Recognition Yi Chang Zhao Ren Zixing Zhang Xin Jing Kun Qian Xi Shao Bin Hu Tanja Schultz Björn W. Schuller AAML 33 4 0 02 Feb 2024
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality Huy Q. Le Chu Myaet Thwal Yu Qiao Ye Lin Tun Minh N. H. Nguyen Choong Seon Hong Choong Seon Hong 60 4 0 25 Jan 2024
HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition Licai Sun Zheng Lian Bin Liu Jianhua Tao 51 29 0 11 Jan 2024
End to end Hindi to English speech conversion using Bark, mBART and a finetuned XLSR Wav2Vec2 Aniket Tathe Anand Kamble Suyash Kumbharkar Atharva Bhandare Anirban C. Mitra 16 1 0 11 Jan 2024
Frame-level emotional state alignment method for speech emotion recognition Qifei Li Yingming Gao Cong Wang Yayue Deng Jinlong Xue Yichen Han Ya Li 22 2 0 27 Dec 2023
PhasePerturbation: Speech Data Augmentation via Phase Perturbation for Automatic Speech Recognition Chengxi Lei Satwinder Singh Feng Hou Xiaoyun Jia Ruili Wang 25 1 0 13 Dec 2023
w2v-SELD: A Sound Event Localization and Detection Framework for Self-Supervised Spatial Audio Pre-Training Orlem Lima dos Santos Karen Rosero R. Lotufo SSL 11 2 0 12 Dec 2023
Multimodal Speech Emotion Recognition Using Modality-specific Self-Supervised Frameworks Rutherford Agbeshi Patamia Paulo E. Santos Kingsley Nketia Acheampong Favour Ekong Kwabena Sarpong She Kun 21 2 0 04 Dec 2023
Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition Dongyuan Li Yusong Wang Kotaro Funakoshi Manabu Okumura 20 3 0 30 Sep 2023
Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve Multimodal Sarcasm Detection Swapnil Bhosale Abhra Chaudhuri Alex Lee Robert Williams Divyank Tiwari Anjan Dutta Xiatian Zhu Pushpak Bhattacharyya Diptesh Kanojia 28 2 0 29 Sep 2023
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition Ziyang Ma Wen Wu Zhisheng Zheng Yiwei Guo Qian Chen Shiliang Zhang Xie Chen 21 15 0 19 Sep 2023
Foundation Model Assisted Automatic Speech Emotion Recognition: Transcribing, Annotating, and Augmenting Tiantian Feng Shrikanth Narayanan 21 16 0 15 Sep 2023
Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition Minh Tran Yufeng Yin M. Soleymani 40 2 0 05 Sep 2023
Leveraging Label Information for Multimodal Emotion Recognition Pei-Hsin Wang Sunlu Zeng Junqing Chen Lu Fan Meng Chen Youzheng Wu Xiaodong He 27 4 0 05 Sep 2023
Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition Xuechen Wang Shiwan Zhao Yong Qin 22 6 0 31 Aug 2023
Decoding Emotions: A comprehensive Multilingual Study of Speech Models for Speech Emotion Recognition Anant Singh Akshat Gupta 26 4 0 17 Aug 2023
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition Weidong Chen Xiaofen Xing Peihao Chen Xiangmin Xu VLM 28 35 0 20 Jul 2023
A Comparison of Time-based Models for Multimodal Emotion Recognition Ege Kesim Selahattin Serdar Helli Sena Nur Cavsak 16 0 0 22 Jun 2023
FedMultimodal: A Benchmark For Multimodal Federated Learning Tiantian Feng Digbalay Bose Tuo Zhang Rajat Hebbar Anil Ramakrishna Rahul Gupta Mi Zhang Salman Avestimehr Shrikanth Narayanan 32 48 0 15 Jun 2023
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition Y. Pan Yanni Hu Yuguang Yang Wen Fei Jixun Yao Heng Lu Lei Ma Jianjun Zhao VLM 54 8 0 13 Jun 2023
PEFT-SER: On the Use of Parameter Efficient Transfer Learning Approaches For Speech Emotion Recognition Using Pre-trained Speech Models Tiantian Feng Shrikanth Narayanan 19 26 0 08 Jun 2023
Towards Robust Family-Infant Audio Analysis Based on Unsupervised Pretraining of Wav2vec 2.0 on Large-Scale Unlabeled Family Audio Jialu Li M. Hasegawa-Johnson Nancy L. McElwain 28 11 0 21 May 2023
TrustSER: On the Trustworthiness of Fine-tuning Pre-trained Speech Embeddings For Speech Emotion Recognition Tiantian Feng Rajat Hebbar Shrikanth Narayanan 33 7 0 18 May 2023
A vector quantized masked autoencoder for audiovisual speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier SSL 79 6 0 05 May 2023
Lightweight Toxicity Detection in Spoken Language: A Transformer-based Approach for Edge Devices Ahlam Husni Abu Nada S. Latif Junaid Qadir 12 4 0 22 Apr 2023
A vector quantized masked autoencoder for speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier 22 20 0 21 Apr 2023
Textless Speech-to-Music Retrieval Using Emotion Similarity Seungheon Doh Minz Won Keunwoo Choi Juhan Nam 14 2 0 19 Mar 2023
Mingling or Misalignment? Temporal Shift for Speech Emotion Recognition with Pre-trained Representations Siyuan Shen Feng Liu Aimin Zhou 22 15 0 26 Feb 2023
A Review of Speech-centric Trustworthy Machine Learning: Privacy, Safety, and Fairness Tiantian Feng Rajat Hebbar Nicholas Mehlman Xuan Shi Aditya Kommineni and Shrikanth Narayanan 35 31 0 18 Dec 2022
Hi,KIA: A Speech Emotion Recognition Dataset for Wake-Up Words Taesu Kim Seungheon Doh G. Lee Hyungseok Jeon Juhan Nam Hyeon‐Jeong Suk 14 2 0 07 Nov 2022
Fast Yet Effective Speech Emotion Recognition with Self-distillation Zhao Ren Thanh Tam Nguyen Yi Chang Björn W. Schuller 15 11 0 26 Oct 2022
Exploration of A Self-Supervised Speech Model: A Study on Emotional Corpora Yuanchao Li Yumnah Mohamied P. Bell Catherine Lai SSL 32 45 0 05 Oct 2022
An Efficient Multitask Learning Architecture for Affective Vocal Burst Analysis Tobias Hallmen Silvan Mertes Dominik Schiller Elisabeth André 15 5 0 28 Sep 2022