v1v2 (latest)

AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale

31 August 2018

Jiayu Du

Xingyu Na

Xuechen Liu

Hui Bu

VLM

ArXiv (abs)PDF HTML

Papers citing "AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale"

50 / 157 papers shown

Title
Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models Keqi Deng Zehui Yang Shinji Watanabe Yosuke Higuchi Gaofeng Cheng Pengyuan Zhang 61 23 0 25 Jan 2022
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model Jinchuan Tian Jianwei Yu Chao Weng Yuexian Zou Dong Yu 64 11 0 06 Jan 2022
Generating Adversarial Samples For Training Wake-up Word Detection Systems Against Confusing Words Haoxu Wang Yan Jia Zeqing Zhao Xuyang Wang Junjie Wang Ming Li AAML 94 2 0 01 Jan 2022
JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification Shinnosuke Takamichi Ludwig Kurzinger Takaaki Saeki Sayaka Shiota Shinji Watanabe 48 25 0 17 Dec 2021
Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model Keqi Deng Songjun Cao Yike Zhang Long Ma VLM 52 31 0 14 Dec 2021
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading Leyuan Qu C. Weber S. Wermter 75 23 0 09 Dec 2021
Deep Spoken Keyword Spotting: An Overview Iván López-Espejo Zheng-Hua Tan John H. L. Hansen Jesper Jensen 79 107 0 20 Nov 2021
Joint Neural AEC and Beamforming with Double-Talk Detection Vinay Kothapally Yong-mei Xu Meng Yu Shizhong Zhang Dong Yu 51 5 0 09 Nov 2021
WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition Binbin Zhang Hang Lv Pengcheng Guo Qijie Shao Chao Yang ... Hui Bu Xiaoyu Chen Chenchen Zeng Di Wu Zhendong Peng 119 231 0 07 Oct 2021
VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over Junchen Lu Berrak Sisman Rui Liu Mingyang Zhang Haizhou Li DiffM 73 19 0 07 Oct 2021
Parameterized Channel Normalization for Far-field Deep Speaker Verification Xuechen Liu Md. Sahidullah Tomi Kinnunen 31 2 0 24 Sep 2021
CarneliNet: Neural Mixture Model for Automatic Speech Recognition A. Kalinov Somshubra Majumdar Jagadeesh Balam Boris Ginsburg MoE 44 3 0 22 Jul 2021
Joint Echo Cancellation and Noise Suppression based on Cascaded Magnitude and Complex Mask Estimation Xiaofeng Shu Yehang Zhu Yanjie Chen Li Chen Haohe Liu Chuanzeng Huang Yuxuan Wang 43 11 0 20 Jul 2021
BAGUA: Scaling up Distributed Learning with System Relaxations Shaoduo Gan Xiangru Lian Rui Wang Jianbin Chang Chengjun Liu ... Jiawei Jiang Binhang Yuan Sen Yang Ji Liu Ce Zhang 80 30 0 03 Jul 2021
The HCCL Speaker Verification System for Far-Field Speaker Verification Challenge Zhuo Li Ce Fang Runqiu Xiao Zhigao Chen Wenchao Wang Yonghong Yan 42 2 0 03 Jul 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 133 359 0 29 Jun 2021
Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition Max W. Y. Lam Jun Wang Chao Weng Dan Su Dong Yu 58 6 0 08 Jun 2021
Latency-Controlled Neural Architecture Search for Streaming Speech Recognition Liqiang He Shulin Feng Dan Su Dong Yu 54 0 0 08 May 2021
Building Bilingual and Code-Switched Voice Conversion with Limited Training Data Using Embedding Consistency Loss Yaogen Yang Haozhe Zhang Xiaoyi Qin Shanshan Liang Huahua Cui Mingyang Xu Ming Li 86 4 0 22 Apr 2021
A Toolbox for Construction and Analysis of Speech Datasets Evelina Bakhturina Vitaly Lavrukhin Boris Ginsburg 45 12 0 11 Apr 2021
Boundary and Context Aware Training for CIF-based Non-Autoregressive End-to-end ASR Fan Yu Haoneng Luo Pengcheng Guo Yuhao Liang Zhuoyuan Yao Lei Xie Yingying Gao Leijing Hou Shilei Zhang 25 11 0 10 Apr 2021
AISHELL-4: An Open Source Dataset for Speech Enhancement, Separation, Recognition and Speaker Diarization in Conference Scenario Yihui Fu Luyao Cheng Shubo Lv Yukai Jv Yuxiang Kong ... Jian Wu Hui Bu Xin Xu Jun Du Jingdong Chen 103 98 0 08 Apr 2021
Extremely Low Footprint End-to-End ASR System for Smart Device Zhifu Gao Yiwu Yao Shiliang Zhang Jun Yang Ming Lei Ian Mcloughlin 43 13 0 06 Apr 2021
MetricNet: Towards Improved Modeling For Non-Intrusive Speech Quality Assessment Meng Yu Chunlei Zhang Yong-mei Xu Shi-Xiong Zhang Dong Yu 55 31 0 02 Apr 2021
Unit selection synthesis based data augmentation for fixed phrase speaker verification Houjun Huang Xu Xiang Fei Zhao Shuai Wang Y. Qian 11 6 0 19 Feb 2021
ATCSpeechNet: A multilingual end-to-end speech recognition framework for air traffic control systems Yi Lin Bo Yang Linchao Li Dongyue Guo Jianwei Zhang Hu Chen Yi Zhang 66 29 0 17 Feb 2021
Improving speech recognition models with small samples for air traffic control systems Yi Lin Qin Li Bo Yang Zhen Yan Huachun Tan Zhengmao Chen 104 32 0 16 Feb 2021
Fast End-to-End Speech Recognition via Non-Autoregressive Models and Cross-Modal Knowledge Transferring from BERT Ye Bai Jiangyan Yi J. Tao Zhengkun Tian Zhengqi Wen Shuai Zhang RALM 91 51 0 15 Feb 2021
CN-Celeb: multi-genre speaker recognition Lantian Li Ruiqi Liu Jiawen Kang Yue Fan Hao Cui Yunqi Cai Ravichander Vipperla Tianshi Zheng Dong Wang 98 123 0 23 Dec 2020
CIF-based Collaborative Decoding for End-to-end Contextual Speech Recognition Minglun Han Linhao Dong Shiyu Zhou Bo Xu 71 23 0 17 Dec 2020
Improving RNN Transducer With Target Speaker Extraction and Neural Uncertainty Estimation Jiatong Shi Chunlei Zhang Chao Weng Shinji Watanabe Meng Yu Dong Yu 51 12 0 26 Nov 2020
Exploring Voice Conversion based Data Augmentation in Text-Dependent Speaker Verification Xiaoyi Qin Yaogen Yang Lin Yang Xuyang Wang Junjie Wang Ming Li 44 0 0 21 Nov 2020
Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin Speech Recognition with a Syllable-to-Character Converter Xiong Wang Zhuoyuan Yao Xian Shi Lei Xie 60 30 0 17 Nov 2020
Training Wake Word Detection with Synthesized Speech Data on Confusion Words Yan Jia Zexin Cai Murong Ma Zeqing Zhao Xuyang Wang Junjie Wang Ming Li 21 3 0 03 Nov 2020
Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input Xingcheng Song Zhiyong Wu Yiheng Huang Chao Weng Dan Su Helen Meng 72 36 0 28 Oct 2020
Universal ASR: Unifying Streaming and Non-Streaming ASR Using a Single Encoder-Decoder Model Zhifu Gao Shiliang Zhang Ming Lei Ian Mcloughlin CVBM 54 15 0 27 Oct 2020
Transfer Learning from Speech Synthesis to Voice Conversion with Non-Parallel Training Data Mingyang Zhang Yi Zhou Li Zhao Haizhou Li 84 53 0 30 Sep 2020
A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech Recognition Baseline Yerbolat Khassanov Saida Mussakhojayeva A. Mirzakhmetov A. Adiyev Mukhamet Nurpeiissov H. A. Varol 57 31 0 22 Sep 2020
Learned Transferable Architectures Can Surpass Hand-Designed Architectures for Large Scale Speech Recognition Liqiang He Dan Su Dong Yu AI4TS 50 7 0 25 Aug 2020
Adaptation Algorithms for Neural Network-Based Speech Recognition: An Overview P. Bell Joachim Fainberg Ondˇrej Klejch Jinyu Li Steve Renals P. Swietojanski 112 78 0 14 Aug 2020
A New Approach to Accent Recognition and Conversion for Mandarin Chinese Lin Ai Shih-Ying Jeng Homayoon Beigi 16 4 0 07 Aug 2020
Recognition-Synthesis Based Non-Parallel Voice Conversion with Adversarial Learning Jing-Xuan Zhang Zhenhua Ling Lirong Dai 76 6 0 05 Aug 2020
Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition Xinyuan Zhou Emre Yilmaz Yanhua Long Yijie Li Haizhou Li 72 52 0 18 Jun 2020
Acoustic Word Embedding System for Code-Switching Query-by-example Spoken Term Detection Murong Ma Haiwei Wu Xuyang Wang Lin Yang Junjie Wang Ming Li 122 7 0 24 May 2020
End-to-End Multi-Look Keyword Spotting Meng Yu Xuan Ji Bo Wu Dan Su Dong Yu 44 19 0 20 May 2020
A Comparison of Label-Synchronous and Frame-Synchronous End-to-End Models for Speech Recognition Linhao Dong Cheng Yi Jianzong Wang Shiyu Zhou Shuang Xu X. Jia Bo Xu 68 17 0 20 May 2020
Atss-Net: Target Speaker Separation via Attention-based Neural Network Tingle Li Qingjian Lin Yuanyuan Bao Ming Li 31 38 0 19 May 2020
Incremental Learning for End-to-End Automatic Speech Recognition Li Fu Xiaoxiao Li Libo Zi Zhengchen Zhang Youzheng Wu Xiaodong He Bowen Zhou CLL 92 23 0 11 May 2020
Domain Aware Training for Far-field Small-footprint Keyword Spotting Haiwei Wu Yan Jia Yuan-Ping Nie Ming Li 39 14 0 07 May 2020
Research on Modeling Units of Transformer Transducer for Mandarin Speech Recognition Li Fu Xiaoxiao Li Libo Zi 37 5 0 26 Apr 2020