Title
The USTC-NERCSLIP Systems for the CHiME-7 DASR Challenge Ruoyu Wang Maokui He Jun Du Hengshun Zhou Shutong Niu ... Mengzhi Wang Genshun Wan Jia Pan Jianqing Gao Chin-Hui Lee 59 12 0 28 Aug 2023
Speaker Diarization of Scripted Audiovisual Content Yogesh Virkar Brian Thompson Rohit Paturi S. Srinivasan Marcello Federico 70 1 0 04 Aug 2023
The FlySpeech Audio-Visual Speaker Diarization System for MISP Challenge 2022 Li Zhang Huan Zhao Yuehong Li Bowen Pang Yannan Wang Hongji Wang Wei Rao Qing Wang Linfu Xie 47 2 0 28 Jul 2023
Mixture Encoder for Joint Speech Separation and Recognition Simon Berger Peter Vieting Christoph Boeddeker Ralf Schluter Reinhold Häb-Umbach 79 6 0 21 Jun 2023
End-to-End Joint Target and Non-Target Speakers ASR Ryo Masumura Naoki Makishima Taiga Yamane Yoshihiko Yamazaki Saki Mizuno ... Akihiko Takashima Satoshi Suzuki Takafumi Moriya Nobukatsu Hojo Atsushi Ando 60 5 0 04 Jun 2023
A Teacher-Student approach for extracting informative speaker embeddings from speech mixtures Tobias Cord-Landwehr Christoph Boeddeker Catalin Zorila R. Doddipatla Reinhold Haeb-Umbach 94 3 0 01 Jun 2023
SVVAD: Personal Voice Activity Detection for Speaker Verification Zuheng Kang Jianzong Wang Junqing Peng Jing Xiao 33 3 0 31 May 2023
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings L. Serafini Samuele Cornell Giovanni Morrone Enrico Zovato Alessio Brutti S. Squartini 83 9 0 29 May 2023
Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization Marc Delcroix Naohiro Tawara Mireia Díez Federico Landini Anna Silnova A. Ogawa Tomohiro Nakatani L. Burget S. Araki 54 6 0 23 May 2023
Target Active Speaker Detection with Audio-visual Cues Yiding Jiang Ruijie Tao Zexu Pan Haizhou Li 83 17 0 22 May 2023
Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor Zhengyang Chen Bing Han Shuai Wang Yan-min Qian 87 16 0 18 May 2023
A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers Juan Pablo Zuluaga Amrutha Prasad Iuliia Nigmatulina P. Motlícek Matthias Kleinert 60 23 0 16 Apr 2023
End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations Giovanni Morrone Samuele Cornell L. Serafini Enrico Zovato Alessio Brutti S. Squartini 73 5 0 21 Mar 2023
TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization Jiaming Wang Zhihao Du Shiliang Zhang 43 6 0 08 Mar 2023
TS-SEP: Joint Diarization and Separation Conditioned on Estimated Speaker Embeddings Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux 93 24 0 07 Mar 2023
Towards Measuring and Scoring Speaker Diarization Fairness Yannis Tevissen Jérôme Boudy Gérard Chollet Frédéric Petitpont 94 2 0 20 Feb 2023
Neural Target Speech Extraction: An Overview Kateřina Žmolíková Marc Delcroix Tsubasa Ochiai K. Kinoshita JanHonza'' vCernocký Dong Yu 70 95 0 31 Jan 2023
GPU-accelerated Guided Source Separation for Meeting Transcription Desh Raj Daniel Povey Sanjeev Khudanpur 69 40 0 10 Dec 2022
Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis Zhihao Du Shiliang Zhang Siqi Zheng Zhijie Yan 47 14 0 18 Nov 2022
Absolute decision corrupts absolutely: conservative online speaker diarisation Youngki Kwon Hee-Soo Heo Bong-Jin Lee You Jin Kim Jee-weon Jung 27 4 0 09 Nov 2022
A Comparative Study on Multichannel Speaker-Attributed Automatic Speech Recognition in Multi-party Meetings Mohan Shi Jie Zhang Zhihao Du Fan Yu Qian Chen Shiliang Zhang Lirong Dai 81 4 0 01 Nov 2022
Adapting self-supervised models to multi-talker speech recognition using speaker embeddings Zili Huang Desh Raj Leibny Paola García-Perera Sanjeev Khudanpur 155 29 0 01 Nov 2022
DiaCorrect: End-to-end error correction for speaker diarization Jiangyu Han Yuhang Cao Heng Lu Yanhua Long 83 0 0 31 Oct 2022
Target-Speaker Voice Activity Detection via Sequence-to-Sequence Prediction Ming Cheng Weiqing Wang Yucong Zhang Xiaoyi Qin Ming Li VLM 102 38 0 28 Oct 2022
Self-Supervised Training of Speaker Encoder with Multi-Modal Diverse Positive Pairs Ruijie Tao Kong Aik Lee Rohan Kumar Das Ville Hautamaki Haizhou Li SSL 90 12 0 27 Oct 2022
In search of strong embedding extractors for speaker diarisation Jee-weon Jung Hee-Soo Heo Bong-Jin Lee Jaesung Huh A. Brown Youngki Kwon Shinji Watanabe Joon Son Chung 83 16 0 26 Oct 2022
TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge Bowen Pang Huan Zhao Gaosheng Zhang Xiaoyue Yang Yanguo Sun Li Zhang Qing Wang Linfu Xie BDL 52 2 0 26 Oct 2022
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering Quan Wang Yiling Huang Han Lu Guanlong Zhao Ignacio López Moreno 88 11 0 25 Oct 2022
Mutual Learning of Single- and Multi-Channel End-to-End Neural Diarization Shota Horiguchi Yuki Takashima Shinji Watanabe Leibny Paola García-Perera 60 2 0 07 Oct 2022
Target Speaker Voice Activity Detection with Transformers and Its Integration with End-to-End Neural Diarization Dongmei Wang Xiong Xiao Naoyuki Kanda Takuya Yoshioka Jian Wu 83 28 0 27 Aug 2022
The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines Gaofeng Cheng Yifan Chen Runyan Yang Qingxu Li Zehui Yang ... Qingqing Zhang Linfu Xie Y. Qian Kong Aik Lee Yonghong Yan 44 9 0 17 Aug 2022
Attention and DCT based Global Context Modeling for Text-independent Speaker Recognition Wei Xia John H. L. Hansen 58 4 0 04 Aug 2022
Online Target Speaker Voice Activity Detection for Speaker Diarization Weiqing Wang Qingjian Lin Ming Li 33 8 0 13 Jul 2022
Online Neural Diarization of Unlimited Numbers of Speakers Using Global and Local Attractors Shota Horiguchi Shinji Watanabe Leibny Paola García-Perera Yuki Takashima Yohei Kawaguchi 98 24 0 06 Jun 2022
Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition Shaojin Ding R. Rikhye Qiao Liang Yanzhang He Quan Wang A. Narayanan Tom O'Malley Ian McGraw 86 27 0 08 Apr 2022
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings Fan Yu Zhihao Du Shiliang Zhang Yuxiao Lin Linfu Xie 42 15 0 31 Mar 2022
Multi-target Extractor and Detector for Unknown-number Speaker Diarization Chin-Yi Cheng Hung-Shin Lee Yu Tsao Hsin-Min Wang 47 8 0 30 Mar 2022
Multi-scale Speaker Diarization with Dynamic Scale Weighting Tae Jin Park Nithin Rao Koluguri Jagadeesh Balam Boris Ginsburg 102 19 0 30 Mar 2022
Speaker Embedding-aware Neural Diarization: an Efficient Framework for Overlapping Speech Diarization in Meeting Scenarios Zhihao Du Shiliang Zhang Siqi Zheng Zhijie Yan 42 2 0 18 Mar 2022
The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party meeting transcription (M2MeT) challenge Maokui He Xiang Lv Weilin Zhou Jingjing Yin Xiaoqi Zhang ... Shutong Niu Yuhang Cao Heng Lu Jun Du Chin-Hui Lee 82 8 0 10 Feb 2022
Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge Jingguang Tian Xinhui Hu Xinkang Xu 58 9 0 10 Feb 2022
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge Fan Yu Shiliang Zhang Pengcheng Guo Yihui Fu Zhihao Du ... Kong Aik Lee Zhijie Yan B. Ma Xin Xu Hui Bu 59 28 0 08 Feb 2022
Cross-Channel Attention-Based Target Speaker Voice Activity Detection: Experimental Results for M2MeT Challenge Weiqing Wang Xiaoyi Qin Ming Li 44 27 0 06 Feb 2022
The CUHK-TENCENT speaker diarization system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge Naijun Zheng Na Li Xixin Wu Lingwei Meng Jiawen Kang Haibin Wu Chao Weng Dan Su Helen Meng 67 10 0 04 Feb 2022
AVA-AVD: Audio-Visual Speaker Diarization in the Wild Eric Z. Xu Zeyang Song Satoshi Tsutsui C. Feng Mang Ye Mike Zheng Shou VGen 83 43 0 29 Nov 2021
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information Zhihao Du Shiliang Zhang Siqi Zheng Weilong Huang Ming Lei BDL 107 1 0 28 Nov 2021
Multi-Channel End-to-End Neural Diarization with Distributed Microphones Shota Horiguchi Yuki Takashima Leibny Paola García-Perera Shinji Watanabe Yohei Kawaguchi 78 18 0 10 Oct 2021
Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number of Speakers using End-to-End Speaker-Attributed ASR Naoyuki Kanda Xiong Xiao Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Takuya Yoshioka 84 40 0 07 Oct 2021
The DKU-DukeECE-Lenovo System for the Diarization Task of the 2021 VoxCeleb Speaker Recognition Challenge Weiqing Wang Danwei Cai Qingjian Lin Lin Yang Junjie Wang Jin Wang Ming Li 81 27 0 05 Sep 2021
Localization Based Sequential Grouping for Continuous Speech Separation Zhong-Qiu Wang DeLiang Wang 80 12 0 14 Jul 2021