MIMO-SPEECH: End-to-End Multi-Channel Multi-Speaker Speech Recognition

15 October 2019

Wangyou Zhang

Papers citing "MIMO-SPEECH: End-to-End Multi-Channel Multi-Speaker Speech Recognition"

30 / 30 papers shown

Title
Microphone Array Signal Processing and Deep Learning for Speech Enhancement Reinhold Haeb-Umbach Tomohiro Nakatani Marc Delcroix Christoph Boeddeker Tsubasa Ochiai 45 0 0 13 Jan 2025
Serialized Speech Information Guidance with Overlapped Encoding Separation for Multi-Speaker Automatic Speech Recognition Hao Shi Yuan Gao Zhaoheng Ni Tatsuya Kawahara 39 2 0 01 Sep 2024
Advancing Multi-talker ASR Performance with Large Language Models Mohan Shi Zengrui Jin Yaoxun Xu Yong Xu Shi-Xiong Zhang Kun Wei Yiwen Shao Chunlei Zhang Dong Yu 31 1 0 30 Aug 2024
SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR Zhiyun Fan Linhao Dong Jun Zhang Lu Lu Zejun Ma 48 5 0 04 Mar 2024
BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR Yuhao Liang Fan Yu Yangze Li Pengcheng Guo Shiliang Zhang Qian Chen Linfu Xie 33 8 0 23 May 2023
CASA-ASR: Context-Aware Speaker-Attributed ASR Mohan Shi Zhihao Du Qian Chen Fan Yu Yangze Li Shiliang Zhang Jie Zhang Lirong Dai 36 8 0 21 May 2023
Perceive and predict: self-supervised speech representation based loss functions for speech enhancement George Close William Ravenscroft Thomas Hain Stefan Goetze SSL 38 12 0 11 Jan 2023
End-to-End Integration of Speech Recognition, Dereverberation, Beamforming, and Self-Supervised Learning Representation Yoshiki Masuyama Xuankai Chang Samuele Cornell Shinji Watanabe Nobutaka Ono 24 19 0 19 Oct 2022
Mutual Learning of Single- and Multi-Channel End-to-End Neural Diarization Shota Horiguchi Yuki Takashima Shinji Watanabe Leibny Paola García-Perera 38 2 0 07 Oct 2022
VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition Naoyuki Kanda Jian Wu Xiaofei Wang Zhuo Chen Jinyu Li Takuya Yoshioka 29 16 0 12 Sep 2022
A neural network-supported two-stage algorithm for lightweight dereverberation on hearing devices Jean-Marie Lemercier J. Thiemann Raphael Koning Timo Gerkmann 32 4 0 06 Apr 2022
Customizable End-to-end Optimization of Online Neural Network-supported Dereverberation for Hearing Devices Jean-Marie Lemercier J. Thiemann Raphael Koning Timo Gerkmann 21 7 0 06 Apr 2022
Audio-visual multi-channel speech separation, dereverberation and recognition Guinan Li Jianwei Yu Jiajun Deng Xunying Liu Helen Meng 21 7 0 05 Apr 2022
End-to-End Multi-speaker ASR with Independent Vector Analysis Robin Scheibler Wangyou Zhang Xuankai Chang Shinji Watanabe Y. Qian 24 2 0 01 Apr 2022
L-SpEx: Localized Target Speaker Extraction Meng Ge Chenglin Xu Longbiao Wang Eng Siong Chng J. Dang Haizhou Li 32 21 0 21 Feb 2022
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge Fan Yu Shiliang Zhang Pengcheng Guo Yihui Fu Zhihao Du ... Kong Aik Lee Zhijie Yan B. Ma Xin Xu Hui Bu 18 28 0 08 Feb 2022
A Time-domain Real-valued Generalized Wiener Filter for Multi-channel Neural Separation Systems Yi Luo 29 14 0 07 Dec 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 40 363 0 02 Nov 2021
VarArray: Array-Geometry-Agnostic Continuous Speech Separation Takuya Yoshioka Xiaofei Wang Dongmei Wang M. Tang Zirun Zhu Zhuo Chen Naoyuki Kanda 24 37 0 12 Oct 2021
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition Yiming Wang Jinyu Li Heming Wang Yao Qian Chengyi Wang Yu Wu 38 48 0 11 Oct 2021
ChannelAugment: Improving generalization of multi-channel ASR by training with input channel randomization M. Gaudesi F. Weninger D. Sharma P. Zhan AAML 33 1 0 23 Sep 2021
A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio Naoyuki Kanda Xiong Xiao Jian Wu Tianyan Zhou Yashesh Gaur Xiaofei Wang Zhong Meng Zhuo Chen Takuya Yoshioka 21 14 0 06 Jul 2021
End-to-End Dereverberation, Beamforming, and Speech Recognition with Improved Numerical Stability and Advanced Frontend Wangyou Zhang Christoph Boeddeker Shinji Watanabe Tomohiro Nakatani Marc Delcroix K. Kinoshita Tsubasa Ochiai Naoyuki Kamo Reinhold Haeb-Umbach Y. Qian 20 32 0 23 Feb 2021
Deep Learning based Multi-Source Localization with Source Splitting and its Effectiveness in Multi-Talker Speech Recognition Aswin Shanmugam Subramanian Chao Weng Shinji Watanabe Meng Yu Dong Yu 34 78 0 16 Feb 2021
A Comparison of Label-Synchronous and Frame-Synchronous End-to-End Models for Speech Recognition Linhao Dong Cheng Yi Jianzong Wang Shiyu Zhou Shuang Xu X. Jia Bo Xu 36 17 0 20 May 2020
Audio-visual Multi-channel Recognition of Overlapped Speech Jianwei Yu Bo Wu R. Yu Shi-Xiong Zhang Lianwu Chen Yong Xu. Meng Yu Dan Su Dong Yu Xunying Liu Helen Meng 24 19 0 18 May 2020
Serialized Output Training for End-to-End Overlapped Speech Recognition Naoyuki Kanda Yashesh Gaur Xiaofei Wang Zhong Meng Takuya Yoshioka 19 113 0 28 Mar 2020
End-to-End Multi-speaker Speech Recognition with Transformer Xuankai Chang Wangyou Zhang Y. Qian Jonathan Le Roux Shinji Watanabe ViT 27 103 0 10 Feb 2020
Time-Domain Multi-modal Bone/air Conducted Speech Enhancement Cheng Yu Kuo-Hsuan Hung Syu-Siang Wang Szu-Wei Fu Yu Tsao J. Hung 29 33 0 22 Nov 2019
SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition Lukas Drude Jens Heitkaemper Christoph Boeddeker Reinhold Haeb-Umbach 16 72 0 30 Oct 2019