Target-Speaker Voice Activity Detection via Sequence-to-Sequence Prediction

28 October 2022

Papers citing "Target-Speaker Voice Activity Detection via Sequence-to-Sequence Prediction"

22 / 22 papers shown

Title
Quality-Aware End-to-End Audio-Visual Neural Speaker Diarization Mao-Kui He Jun Du Shu-Tong Niu Qing-Feng Liu Chin-Hui Lee 19 0 0 15 Oct 2024
Unified Audio Event Detection Yidi Jiang Ruijie Tao Wen Huang Qian Chen Wen Wang 27 0 0 13 Sep 2024
Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens Taejin Park Ivan Medennikov Kunal Dhawan Weiqing Wang He Huang Nithin Rao Koluguri Krishna C. Puvvada Jagadeesh Balam Boris Ginsburg 21 2 0 10 Sep 2024
Flow-TSVAD: Target-Speaker Voice Activity Detection via Latent Flow Matching Zhengyang Chen Bing Han Shuai Wang Yidi Jiang Yanmin Qian 35 0 0 07 Sep 2024
The VoxCeleb Speaker Recognition Challenge: A Retrospective Jaesung Huh Joon Son Chung Arsha Nagrani A. Brown Jee-weon Jung Daniel Garcia-Romero Andrew Zisserman 28 3 0 27 Aug 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 24 4 0 21 Jul 2024
Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness Satyam Kumar Sai Srujana Buddi U. Sarawgi Vineet Garg Shivesh Ranjan Ognjen Rudovic Ahmed Hussen Abdelaziz Saurabh N. Adya 45 2 0 12 Jun 2024
EEND-M2F: Masked-attention mask transformers for speaker diarization Marc Härkönen Samuel J. Broughton Lahiru Samarakoon 14 7 0 23 Jan 2024
Golden Gemini is All You Need: Finding the Sweet Spots for Speaker Verification Tianchi Liu Kong Aik Lee Qiongqiong Wang Haizhou Li VLM 52 13 0 06 Dec 2023
End-to-end Online Speaker Diarization with Target Speaker Tracking Weiqing Wang Ming Li 19 5 0 12 Oct 2023
Haha-Pod: An Attempt for Laughter-based Non-Verbal Speaker Verification Yuke Lin Xiaoyi Qin Ning Jiang Guoqing Zhao Ming Li 29 3 0 25 Sep 2023
NTT speaker diarization system for CHiME-7: multi-domain, multi-microphone End-to-end and vector clustering diarization Naohiro Tawara Marc Delcroix Atsushi Ando A. Ogawa 28 7 0 22 Sep 2023
Profile-Error-Tolerant Target-Speaker Voice Activity Detection Dongmei Wang Xiong Xiao Naoyuki Kanda Midia Yousefi Takuya Yoshioka Jian Wu 11 3 0 21 Sep 2023
Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture Gaobin Yang Maokui He Shutong Niu Ruoyu Wang Yanyan Yue Shuangqing Qian Shilong Wu Jun Du Chin-Hui Lee 13 11 0 17 Sep 2023
Attention-based Encoder-Decoder End-to-End Neural Diarization with Embedding Enhancer Zhengyang Chen Bing Han Shuai Wang Yan-min Qian 16 18 0 13 Sep 2023
The USTC-NERCSLIP Systems for the CHiME-7 DASR Challenge Ruoyu Wang Maokui He Jun Du Hengshun Zhou Shutong Niu ... Mengzhi Wang Genshun Wan Jia Pan Jianqing Gao Chin-Hui Lee 12 12 0 28 Aug 2023
VoxBlink: A Large Scale Speaker Verification Dataset on Camera Yuke Lin Xiaoyi Qin Guoqing Zhao Ming Cheng Ning Jiang Haiying Wu Ming Li 36 13 0 14 Aug 2023
An Experimental Review of Speaker Diarization methods with application to Two-Speaker Conversational Telephone Speech recordings L. Serafini Samuele Cornell Giovanni Morrone Enrico Zovato A. Brutti S. Squartini 27 9 0 29 May 2023
Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor Zhengyang Chen Bing Han Shuai Wang Yan-min Qian 19 15 0 18 May 2023
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang X. Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 138 703 0 28 Jan 2022
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 269 323 0 24 Jan 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,224 0 14 Jun 2018