ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification

14 May 2020

Papers citing "ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification"

50 / 192 papers shown

Title
Listen to Extract: Onset-Prompted Target Speaker Extraction Pengjie Shen Kangrui Chen Shulin He Pengru Chen Shuqi Yuan He Kong Xueliang Zhang Z. Wang 48 0 0 08 May 2025
MGFF-TDNN: A Multi-Granularity Feature Fusion TDNN Model with Depth-Wise Separable Module for Speaker Verification Ya Li Bin Zhou Bo Hu 140 0 0 06 May 2025
APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech Zhicheng Lian Lizhi Wang Hua Huang 49 0 0 29 Apr 2025
Speaker Retrieval in the Wild: Challenges, Effectiveness and Robustness Erfan Loweimi Mengjie Qian Kate Knill Mark J. F. Gales 46 0 0 26 Apr 2025
Quantifying Source Speaker Leakage in One-to-One Voice Conversion Scott Wellington Xuechen Liu Junichi Yamagishi 35 0 0 22 Apr 2025
Privacy-Preserving Biometric Verification with Handwritten Random Digit String Peirong Zhang Y. Liu Songxuan Lai Hongliang Li Lianwen Jin 69 2 0 17 Mar 2025
ValSub: Subsampling Validation Data to Mitigate Forgetting during ASR Personalization Haaris Mehmood Karthikeyan P. Saravanan Pablo Peso Parada David Tuckey Mete Ozay Gil Ho Lee Jungin Lee Seokyeong Jung 52 0 0 12 Mar 2025
CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking Yiming Li Kaiying Yan Shuo Shao Tongqing Zhai Shu-Tao Xia Z. Qin D. Tao AAML 143 0 0 02 Mar 2025
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation Anna Min Chenxu Hu Yi Ren Hang Zhao 61 0 0 01 Feb 2025
Safe Gradient Flow for Bilevel Optimization Sina Sharifi Nazanin Abolfazli E. Y. Hamedani Mahyar Fazlyab 36 1 0 27 Jan 2025
Why disentanglement-based speaker anonymization systems fail at preserving emotions? Ünal Ege Gaznepoglu Nils Peters 83 0 0 22 Jan 2025
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 35 5 0 17 Jan 2025
Spectral-Aware Low-Rank Adaptation for Speaker Verification Zhe Li Man-Wai Mak Mert Pilanci Hung-yi Lee H. Meng 41 0 0 07 Jan 2025
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 45 0 0 03 Jan 2025
autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks Simon Rampp Andreas Triantafyllopoulos M. Milling Björn Schuller 85 0 0 16 Dec 2024
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification Yichen He Yuan Lin Jianchao Wu Hanchong Zhang Yuchen Zhang Ruicheng Le VGen VLM 148 2 0 11 Nov 2024
SF-Speech: Straightened Flow for Zero-Shot Voice Clone Xuyuan Li Zengqiang Shang Hua Hua Peiyang Shi Chen Yang Li Wang Pengyuan Zhang 45 2 0 16 Oct 2024
The First VoicePrivacy Attacker Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Emmanuel Vincent Junichi Yamagishi 125 2 0 09 Oct 2024
Improving Speaker Representations Using Contrastive Losses on Multi-scale Features Satvik Dixit Massa Baali Rita Singh Bhiksha Raj 24 0 0 07 Oct 2024
MT2KD: Towards A General-Purpose Encoder for Speech, Speaker, and Audio Events Xiaoyu Yang Qiujia Li Chao Zhang P. Woodland 24 0 0 25 Sep 2024
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation Siyin Wang Wenyi Yu Yudong Yang Changli Tang Yixuan Li ... Jun Zhang Guangzhi Sun Lu Lu Yuxuan Wang Chao Zhang AuLLM LM&MA 67 5 0 25 Sep 2024
Disentangling Age and Identity with a Mutual Information Minimization Approach for Cross-Age Speaker Verification Fengrun Zhang Wangjin Zhou Yiming Liu Wang Geng Yahui Shan Chen Zhang 26 0 0 24 Sep 2024
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild Jee-weon Jung Yihan Wu Xin Wang Ji-Hoon Kim Soumi Maiti ... Joon Son Chung Wangyou Zhang Seyun Um Shinnosuke Takamichi Shinji Watanabe 65 1 0 18 Sep 2024
High-Resolution Speech Restoration with Latent Diffusion Model Tushar Dhyani Florian Lux Michele Mancusi Giorgio Fabbro Fritz Hohl Ngoc Thang Vu DiffM 37 0 0 17 Sep 2024
Speaker Contrastive Learning for Source Speaker Tracing Qing Wang Hongmei Guo Jian Kang Mengjie Du Jie Li Xiao-Lei Zhang Lei Xie 25 0 0 16 Sep 2024
Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification Jin Sob Kim Hyun Joon Park Wooseok Shin Sung Won Han SLR 48 0 0 12 Sep 2024
User-Driven Voice Generation and Editing through Latent Space Navigation Yusheng Tian Junbin Liu Tan Lee DiffM 39 2 0 30 Aug 2024
SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection Ismail Rasim Ulgen Shreeram Suresh Chandra Junchen Lu Berrak Sisman 128 0 0 30 Aug 2024
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation Xiaoxiao Miao Yuxiang Zhang Xin Wang N. Tomashenko D. Soh Ian Mcloughlin 42 1 0 12 Aug 2024
ADD 2023: Towards Audio Deepfake Detection and Analysis in the Wild Jiangyan Yi Chu Yuan Zhang Jianhua Tao Chenglong Wang Xinrui Yan Yong Ren Hao Gu Junzuo Zhou 50 1 0 09 Aug 2024
The CHiME-8 DASR Challenge for Generalizable and Array Agnostic Distant Automatic Speech Recognition and Diarization Samuele Cornell Taejin Park Steve Huang Christoph Boeddeker Xuankai Chang Matthew Maciejewski Matthew Wiesner Paola García Shinji Watanabe 34 9 0 23 Jul 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 37 4 0 21 Jul 2024
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors J. Hauret Malo Olivier Thomas Joubaud C. Langrenne Sarah Poirée V. Zimpfer Éric Bavu 75 1 0 16 Jul 2024
A Benchmark for Multi-speaker Anonymization Xiaoxiao Miao Ruijie Tao Chang Zeng Xin Wang 44 1 0 08 Jul 2024
Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency Roman Aperdannier Sigurd Schacht Alexander Piazza 44 0 0 05 Jul 2024
Prosody-Driven Privacy-Preserving Dementia Detection Dominika Woszczyk Ranya Aloufi Soteris Demetriou 34 2 0 03 Jul 2024
GMM-ResNet2: Ensemble of Group ResNet Networks for Synthetic Speech Detection Zhenchun Lei Hui Yan Changhong Liu Yong Zhou Minglei Ma 42 2 0 02 Jul 2024
How Should We Extract Discrete Audio Tokens from Self-Supervised Models? Pooneh Mousavi J. Duret Salah Zaiem Luca Della Libera Artem Ploujnikov Cem Subakan Mirco Ravanelli 39 9 0 15 Jun 2024
Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition Guinan Li Jiajun Deng Youjun Chen Mengzhe Geng Shujie Hu ... Zengrui Jin Tianzi Wang Xurong Xie Helen Meng Xunying Liu VLM 29 0 0 14 Jun 2024
INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition Andreas Triantafyllopoulos A. Batliner Simon Rampp M. Milling Björn Schuller VLM 23 0 0 10 Jun 2024
InaGVAD : a Challenging French TV and Radio Corpus Annotated for Speech Activity Detection and Speaker Gender Segmentation D. Doukhan Christine Maertens William Le Personnic Ludovic Speroni Reda Dehak 30 2 0 06 Jun 2024
Hypernetworks for Personalizing ASR to Atypical Speech Max Müller-Eberstein Dianna Yee Karren D. Yang G. Mantena Colin S. Lea 33 0 0 06 Jun 2024
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes Trung D. Q. Dang David Aponte Dung Tran K. Koishida 38 3 0 05 Jun 2024
Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation Min-Jae Hwang Ilia Kulikov Benjamin Peloquin Hongyu Gong Peng-Jen Chen Ann Lee 27 1 0 04 Jun 2024
Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models Victor Miara Theo Lepage Reda Dehak 29 1 0 04 Jun 2024
Speaker Embeddings With Weakly Supervised Voice Activity Detection For Efficient Speaker Diarization Jenthe Thienpondt Kris Demuynck 36 2 0 15 May 2024
Voice Attribute Editing with Text Prompt Zheng-Yan Sheng Yang Ai Li-Juan Liu Jia Pan Zhenhua Ling 26 6 0 13 Apr 2024
VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing Philip Anastassiou Zhenyu Tang Kainan Peng Dongya Jia Jiaxin Li Ming Tu Yuping Wang Yuxuan Wang Mingbo Ma 42 4 0 10 Apr 2024
The VoicePrivacy 2024 Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Pierre Champion Sarina Meyer Xin Wang Emmanuel Vincent Michele Panariello Nicholas W. D. Evans Junichi Yamagishi Massimiliano Todisco 36 21 0 03 Apr 2024
Dynamic Cross Attention for Audio-Visual Person Verification R Gnana Praveen Jahangir Alam 38 1 0 07 Mar 2024