Speaker Diarization with LSTM

28 October 2017

Papers citing "Speaker Diarization with LSTM"

50 / 62 papers shown

Title
Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning Abdulhady Abas Abdullah S. H. Karim Sara Azad Ahmed Kanar R. Tariq Tarik Ahmed Rashid 227 0 0 23 Apr 2025
USED: Universal Speaker Extraction and Diarization Junyi Ao Mehmet Sinan Yildirim Ruijie Tao Mengyao Ge Shuai Wang Yan-min Qian Haizhou Li 43 6 0 17 Jan 2025
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models Thai-Binh Nguyen Alexander Waibel 82 1 0 27 Nov 2024
Target conversation extraction: Source separation using turn-taking dynamics Tuochao Chen Qirui Wang Bohan Wu Malek Itani Sefik Emre Eskimez Takuya Yoshioka Shyamnath Gollakota 45 4 0 15 Jul 2024
A Benchmark for Multi-speaker Anonymization Xiaoxiao Miao Ruijie Tao Chang Zeng Xin Wang 49 1 0 08 Jul 2024
AG-LSEC: Audio Grounded Lexical Speaker Error Correction Rohit Paturi Xiang Li S. Srinivasan 43 1 0 25 Jun 2024
Improved Long-Form Speech Recognition by Jointly Modeling the Primary and Non-primary Speakers Guru Prakash Arumugam Shuo-yiin Chang Tara N. Sainath Rohit Prabhavalkar Quan Wang Shaan Bijwadia 29 3 0 18 Dec 2023
Frame-wise streaming end-to-end speaker diarization with non-autoregressive self-attention-based attractors Di Liang Nian Shao Xiaofei Li 33 4 0 25 Sep 2023
Attention-based Encoder-Decoder End-to-End Neural Diarization with Embedding Enhancer Zhengyang Chen Bing Han Shuai Wang Yan-min Qian 30 18 0 13 Sep 2023
Highly Controllable Diffusion-based Any-to-Any Voice Conversion Model with Frame-level Prosody Feature Kyungguen Byun Sunkuk Moon Erik Visser DiffM 37 1 0 06 Sep 2023
In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction Microphones for In-Ear Sensing Platforms Philipp Schilk Niccolò Polvani Andrea Ronco Milos Cernak Michele Magno 39 12 0 05 Sep 2023
Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction Rohit Paturi S. Srinivasan Xiang Li 26 13 0 15 Jun 2023
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings L. Serafini Samuele Cornell Giovanni Morrone Enrico Zovato Alessio Brutti S. Squartini 49 9 0 29 May 2023
Exploring Speaker-Related Information in Spoken Language Understanding for Better Speaker Diarization Luyao Cheng Siqi Zheng Zhang Qinglin Haibo Wang Yafeng Chen Qian Chen 43 4 0 22 May 2023
Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor Zhengyang Chen Bing Han Shuai Wang Yan-min Qian 36 16 0 18 May 2023
Neural Diarization with Non-autoregressive Intermediate Attractors Yusuke Fujita Tatsuya Komatsu Robin Scheibler Yusuke Kida Tetsuji Ogawa 40 11 0 13 Mar 2023
WhisperX: Time-Accurate Speech Transcription of Long-Form Audio Max Bain Jaesung Huh Tengda Han Andrew Zisserman 45 210 0 01 Mar 2023
Supervised Hierarchical Clustering using Graph Neural Networks for Speaker Diarization Prachi Singh Amrit Kaul Sriram Ganapathy BDL 38 8 0 24 Feb 2023
A Reinforcement Learning Framework for Online Speaker Diarization Baihan Lin Xinxin Zhang OffRL 39 2 0 21 Feb 2023
VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge Jaesung Huh A. Brown Jee-weon Jung Joon Son Chung Arsha Nagrani D. Garcia-Romero Andrew Zisserman 23 26 0 20 Feb 2023
PrecTime: A Deep Learning Architecture for Precise Time Series Segmentation in Industrial Manufacturing Operations S. Gaugel M. Reichert AI4TS 27 16 0 27 Jan 2023
LoCoNet: Long-Short Context Network for Active Speaker Detection Xizi Wang Feng Cheng Gedas Bertasius David J. Crandall 26 15 0 19 Jan 2023
High-resolution embedding extractor for speaker diarisation Hee-Soo Heo Youngki Kwon Bong-Jin Lee You Jin Kim Jee-weon Jung 32 5 0 08 Nov 2022
TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge Bowen Pang Huan Zhao Gaosheng Zhang Xiaoyue Yang Yanguo Sun Li Zhang Qing Wang Linfu Xie BDL 28 2 0 26 Oct 2022
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering Quan Wang Yiling Huang Han Lu Guanlong Zhao Ignacio López Moreno 34 11 0 25 Oct 2022
Spectral Clustering-aware Learning of Embeddings for Speaker Diarisation Evonne Lee Guangzhi Sun C. Zhang P. Woodland 27 1 0 24 Oct 2022
Local and Global Structure Preservation Based Spectral Clustering Kajal Eybpoosh M. Rezghi A. Heydari 40 0 0 23 Oct 2022
Robust Acoustic Domain Identification with its Application to Speaker Diarization Kishore Kumar A Shefali Waldekar Md. Sahidullah G. Saha 24 0 0 05 Aug 2022
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yuki Takashima Y. Kawaguchi 39 23 0 06 Jun 2022
Generation of Speaker Representations Using Heterogeneous Training Batch Assembly Yu-Huai Peng Hung-Shin Lee Pin-Tuan Huang Hsin-Min Wang 21 0 0 30 Mar 2022
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge Fan Yu Shiliang Zhang Pengcheng Guo Yihui Fu Zhihao Du ... Kong Aik Lee Zhijie Yan B. Ma Xin Xu Hui Bu 18 28 0 08 Feb 2022
VoxSRC 2021: The Third VoxCeleb Speaker Recognition Challenge A. Brown Jaesung Huh Joon Son Chung Arsha Nagrani Daniel Garcia-Romero Andrew Zisserman 31 40 0 12 Jan 2022
Directed Speech Separation for Automatic Speech Recognition of Long Form Conversational Speech Rohit Paturi S. Srinivasan Katrin Kirchhoff Daniel Garcia-Romero 19 9 0 10 Dec 2021
Low-Latency Online Speaker Diarization with Graph-Based Label Generation Yucong Zhang Qinjian Lin Weiqing Wang Lin Yang Xuyang Wang Junjie Wang Ming Li 22 10 0 27 Nov 2021
M2MeT: The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge Fan Yu Shiliang Zhang Yihui Fu Lei Xie Siqi Zheng ... Pengcheng Guo Zhijie Yan B. Ma Xin Xu Hui Bu 11 106 0 14 Oct 2021
Advancing the dimensionality reduction of speaker embeddings for speaker diarisation: disentangling noise and informing speech activity You Jin Kim Hee-Soo Heo Jee-weon Jung Youngki Kwon Bong-Jin Lee Joon Son Chung 32 3 0 07 Oct 2021
Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn Detection Wei Xia Han Lu Quan Wang Anshuman Tripathi Yiling Huang Ignacio López Moreno Hasim Sak 46 51 0 23 Sep 2021
Self-Supervised Metric Learning With Graph Clustering For Speaker Diarization Prachi Singh Sriram Ganapathy SSL 31 7 0 14 Sep 2021
BeamTransformer: Microphone Array-based Overlapping Speech Detection Siqi Zheng Shiliang Zhang Weilong Huang Qian Chen Hongbin Suo Ming Lei Jinwei Feng Zhijie Yan 37 7 0 09 Sep 2021
A Real-time Speaker Diarization System Based on Spatial Spectrum Siqi Zheng Weilong Huang Xianliang Wang Hongbin Suo Jinwei Feng Zhijie Yan 13 24 0 20 Jul 2021
Encoder-Decoder Based Attractors for End-to-End Neural Diarization Shota Horiguchi Yusuke Fujita Shinji Watanabe Yawen Xue Leibny Paola García-Perera 37 64 0 20 Jun 2021
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings Soumi Maiti Hakan Erdogan K. Wilson Scott Wisdom Shinji Watanabe J. Hershey 27 21 0 05 May 2021
Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss Naoki Makishima Mana Ihori Akihiko Takashima Tomohiro Tanaka Shota Orihashi Ryo Masumura 30 8 0 02 Mar 2021
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 274 328 0 24 Jan 2021
MAAS: Multi-modal Assignation for Active Speaker Detection Juan Carlos León Alcázar Fabian Caba Heilbron Ali K. Thabet Guohao Li 65 51 0 11 Jan 2021
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning Wei Xia Chunlei Zhang Chao Weng Meng Yu Dong Yu SSL 25 78 0 13 Dec 2020
BW-EDA-EEND: Streaming End-to-End Neural Speaker Diarization for a Variable Number of Speakers Eunjung Han Chul Lee A. Stolcke 27 42 0 05 Nov 2020
Combination of Deep Speaker Embeddings for Diarisation Guangzhi Sun Chao Zhang P. Woodland 25 20 0 22 Oct 2020
Microsoft Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2020 Xiong Xiao Naoyuki Kanda Zhuo Chen Tianyan Zhou Takuya Yoshioka ... Yu-Huan Wu Jian Wu Shujie Liu Jinyu Li Jiawei Liu 27 62 0 22 Oct 2020
DNN Speaker Tracking with Embeddings C. Castillo-Sanchez Leibny Paola García-Perera A. Martín-González 19 0 0 13 Jul 2020