v1v2 (latest)

Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds

26 October 2020

Papers citing "Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds"

50 / 52 papers shown

Title
Mitigating Non-Target Speaker Bias in Guided Speaker Embedding Shota Horiguchi Takanori Ashihara Marc Delcroix Atsushi Ando Naohiro Tawara 20 0 0 14 Jun 2025
Dissecting the Segmentation Model of End-to-End Diarization with Vector Clustering Alexis Plaquet Naohiro Tawara Marc Delcroix Shota Horiguchi Atsushi Ando S. Araki H. Bredin 39 0 0 13 Jun 2025
Pretraining Multi-Speaker Identification for Neural Speaker Diarization Shota Horiguchi Atsushi Ando Marc Delcroix Naohiro Tawara 24 0 0 30 May 2025
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 101 6 0 17 Jan 2025
SEAL: Speaker Error Correction using Acoustic-conditioned Large Language Models Anurag Kumar Rohit Paturi Amber Afshan S. Srinivasan 109 0 0 14 Jan 2025
DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition Alexander Polok Dominik Klement M. Kocour Jiangyu Han Federico Landini Bolaji Yusuf Sanjeev Khudanpur Kevin Duh J. Černocký L. Burget 61 0 0 03 Jan 2025
Guided Speaker Embedding Shota Horiguchi Takafumi Moriya Atsushi Ando Takanori Ashihara Hiroshi Sato Naohiro Tawara Marc Delcroix 124 1 0 03 Jan 2025
Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization Petr Pálka Federico Landini Dominik Klement Mireia Díez Anna Silnova Marc Delcroix L. Burget VLM 68 0 0 04 Nov 2024
Character-aware audio-visual subtitling in context Jaesung Huh Andrew Zisserman 90 0 0 14 Oct 2024
Mamba-based Segmentation Model for Speaker Diarization Alexis Plaquet Naohiro Tawara Marc Delcroix Shota Horiguchi Atsushi Ando Shoko Araki Mamba 73 4 0 09 Oct 2024
Leveraging Self-Supervised Learning for Speaker Diarization Jiangyu Han Federico Landini Johan Rohdin Anna Silnova Mireia Díez Lukas Burget 87 8 0 14 Sep 2024
The VoxCeleb Speaker Recognition Challenge: A Retrospective Jaesung Huh Joon Son Chung Arsha Nagrani A. Brown Jee-weon Jung Daniel Garcia-Romero Andrew Zisserman 80 5 0 27 Aug 2024
Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition Samuele Cornell Jordan Darefsky Zhiyao Duan Shinji Watanabe SyDa 91 5 0 17 Aug 2024
Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios Juan Ignacio Alvarez-Trejos Beltrán Labrador Alicia Lozano-Diez 93 2 0 01 Jul 2024
Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization Xiang Li Vivek Govindan Rohit Paturi S. Srinivasan 46 1 0 26 Jun 2024
AG-LSEC: Audio Grounded Lexical Speaker Error Correction Rohit Paturi Xiang Li S. Srinivasan 68 1 0 25 Jun 2024
Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework Hokuto Munakata Ryo Terashima Yusuke Fujita 76 0 0 24 Jun 2024
Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions Anfeng Xu Kevin Huang Tiantian Feng Lue Shen Helen Tager-Flusberg Shrikanth Narayanan 57 4 0 12 Jun 2024
Online speaker diarization of meetings guided by speech separation Elio Gruttadauria Mathieu Fontaine S. Essid 30 5 0 30 Jan 2024
On Speaker Attribution with SURT Desh Raj Sanjeev Khudanpur Matthew Maciejewski Leibny Paola García-Perera Daniel Povey Sanjeev Khudanpur 61 3 0 28 Jan 2024
EEND-M2F: Masked-attention mask transformers for speaker diarization Marc Härkönen Samuel J. Broughton Lahiru Samarakoon 106 9 0 23 Jan 2024
DiaPer: End-to-End Neural Diarization with Perceiver-Based Attractors Federico Landini Mireia Díez Themos Stafylakis Lukávs Burget 76 14 0 07 Dec 2023
Powerset multi-class cross entropy loss for neural speaker diarization Alexis Plaquet H. Bredin 167 113 0 19 Oct 2023
End-to-end Online Speaker Diarization with Target Speaker Tracking Weiqing Wang Ming Li 69 5 0 12 Oct 2023
One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition Samuele Cornell Jee-weon Jung Shinji Watanabe S. Squartini VLM 119 19 0 02 Oct 2023
NTT speaker diarization system for CHiME-7: multi-domain, multi-microphone End-to-end and vector clustering diarization Naohiro Tawara Marc Delcroix Atsushi Ando A. Ogawa 79 11 0 22 Sep 2023
Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network Yiling Huang Weiran Wang Guanlong Zhao Hank Liao Wei Xia Quan Wang 62 4 0 15 Sep 2023
Improving End-to-End Neural Diarization Using Conversational Summary Representations Samuel J. Broughton Lahiru Samarakoon 45 7 0 24 Jun 2023
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios Samuele Cornell Sanjeev Khudanpur Shinji Watanabe Desh Raj Xuankai Chang ... Matthew Maciejewski Yoshiki Masuyama Zhong-Qiu Wang S. Squartini Sanjeev Khudanpur 102 60 0 23 Jun 2023
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings L. Serafini Samuele Cornell Giovanni Morrone Enrico Zovato Alessio Brutti S. Squartini 83 9 0 29 May 2023
Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization Marc Delcroix Naohiro Tawara Mireia Díez Federico Landini Anna Silnova A. Ogawa Tomohiro Nakatani L. Burget S. Araki 54 6 0 23 May 2023
End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations Giovanni Morrone Samuele Cornell L. Serafini Enrico Zovato Alessio Brutti S. Squartini 73 5 0 21 Mar 2023
TS-SEP: Joint Diarization and Separation Conditioned on Estimated Speaker Embeddings Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux 93 24 0 07 Mar 2023
Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis Zhihao Du Shiliang Zhang Siqi Zheng Zhijie Yan 47 14 0 18 Nov 2022
Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization Federico Landini Mireia Díez Alicia Lozano-Diez L. Burget 65 15 0 12 Nov 2022
Absolute decision corrupts absolutely: conservative online speaker diarisation Youngki Kwon Hee-Soo Heo Bong-Jin Lee You Jin Kim Jee-weon Jung 29 4 0 09 Nov 2022
DiaCorrect: End-to-end error correction for speaker diarization Jiangyu Han Yuhang Cao Heng Lu Yanhua Long 83 0 0 31 Oct 2022
Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization Dongmei Wang Xiong Xiao Naoyuki Kanda Takuya Yoshioka Jian Wu 83 28 0 27 Aug 2022
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yuki Takashima Yohei Kawaguchi 98 24 0 06 Jun 2022
Reformulating Speaker Diarization as Community Detection With Emphasis On Topological Structure Siqi Zheng Hongbin Suo 40 8 0 26 Apr 2022
Robust End-to-end Speaker Diarization with Generic Neural Clustering Chenyu Yang Yu Wang 109 2 0 18 Apr 2022
From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization Federico Landini Alicia Lozano-Diez Mireia Díez Lukávs Burget 60 37 0 02 Apr 2022
Multimodal Clustering with Role Induced Constraints for Speaker Diarization Nikolaos Flemotomos Shrikanth Narayanan 50 4 0 01 Apr 2022
Tight integration of neural- and clustering-based diarization through deep unfolding of infinite Gaussian mixture model K. Kinoshita Marc Delcroix Tomoharu Iwata BDL 61 19 0 14 Feb 2022
Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number of Speakers using End-to-End Speaker-Attributed ASR Naoyuki Kanda Xiong Xiao Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Takuya Yoshioka 84 40 0 07 Oct 2021
Overlap-aware low-latency online speaker diarization based on end-to-end local segmentation Juan Manuel Coria H. Bredin Sahar Ghannay Sophie Rosset 76 30 0 14 Sep 2021
Towards Neural Diarization for Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yawen Xue Yuki Takashima Yohei Kawaguchi 79 38 0 04 Jul 2021
DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding Neil Zeghidour O. Teboul David Grangier 63 13 0 28 May 2021
Advances in integration of end-to-end neural and clustering-based diarization for real conversational speech K. Kinoshita Marc Delcroix Naohiro Tawara 115 61 0 19 May 2021
Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA Clustering of DNN Embeddings Kiran Karra A. McCree 14 2 0 06 Apr 2021