AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline

16 September 2017

Hui Bu

Papers citing "AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline"

50 / 451 papers shown

SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal ConvolutionIEEE Signal Processing Letters (SPL), 2022

Fangyuan Wang

Bo Xu

326

21 Nov 2022

Improving Noisy Student Training on Non-target Domain Data for Automatic Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Yu Chen

Wen Ding

Junjie Lai

267

09 Nov 2022

The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and ResultsInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2022

Ao Zhang

Longbiao Wang

Hui Bu

Binbin Zhang

Wei Chen

Xin Xu

200

03 Nov 2022

Towards Zero-Shot Code-Switched Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

223

02 Nov 2022

Monolingual Recognizers Fusion for Code-switching Speech Recognition

Tongtong Song

Qiang Xu

Haoyu Lu

Longbiao Wang

Hao Shi

Yuqin Lin

Yanbing Yang

Jianwu Dang

149

02 Nov 2022

BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced EncoderIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

337

02 Nov 2022

TrimTail: Low-Latency Streaming ASR with Simple but Effective Spectrogram-Level Length PenaltyIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Xingcheng Song

Di Wu

Zhiyong Wu

Binbin Zhang

235

01 Nov 2022

FusionFormer: Fusing Operations in Transformer for Efficient Streaming Speech Recognition

Xingcheng Song

Di Wu

Binbin Zhang

Zhiyong Wu

...

133

31 Oct 2022

BERT Meets CTC: New Formulation of End-to-End Speech Recognition with Pre-trained Masked Language ModelConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

254

29 Oct 2022

SAN: a robust end-to-end ASR model architectureIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Zeping Min

Qian Ge

Guanhua Huang

123

27 Oct 2022

V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization

Jiangyi Deng

Fei Teng

Yanjiao Chen

Xiaofu Chen

Zhaohui Wang

Wenyuan Xu

200

27 Oct 2022

Pronunciation Generation for Foreign Language Words in Intra-Sentential Code-Switching Speech Recognition

Wei Wang

Chao Zhang

Xiao-pei Wu

26 Oct 2022

10 hours data is all you need

Zeping Min

Qian Ge

Zhong Li

174

24 Oct 2022

spatial-dccrn: dccrn equipped with frame-level angle feature and hybrid filtering for multi-channel speech enhancementSpoken Language Technology Workshop (SLT), 2022

152

17 Oct 2022

Acoustic-aware Non-autoregressive Spell Correction with Mask Sample Decoding

183

16 Oct 2022

LeVoice ASR Systems for the ISCSLP 2022 Intelligent Cockpit Speech Recognition ChallengeInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2022

176

14 Oct 2022

An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling to Differential Privacy Preserving Speech RecognitionInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2022

Chao-Han Huck Yang

Jun Qi

Sabato Marco Siniscalchi

Chin-Hui Lee

180

12 Oct 2022

A context-aware knowledge transferring strategy for CTC-based ASRSpoken Language Technology Workshop (SLT), 2022

Keda Lu

Kuan-Yu Chen

166

12 Oct 2022

PSVRF: Learning to restore Pitch-Shifted Voice without reference

Yangfu Li

Xiaodan Lin

Jiaxin Yang

129

06 Oct 2022

Adaptive Sparse and Monotonic Attention for Transformer-based Automatic Speech RecognitionInternational Conference on Data Science and Advanced Analytics (DSAA), 2022

170

30 Sep 2022

Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech RecognitionInterspeech (Interspeech), 2022

140

17 Sep 2022

Pronunciation-aware unique character encoding for RNN Transducer-based Mandarin speech recognitionSpoken Language Technology Workshop (SLT), 2022

Peng Shen

Xugang Lu

Hisashi Kawai

106

29 Jul 2022

Improving Mandarin Speech Recogntion with Block-augmented Transformer

230

24 Jul 2022

Knowledge Transfer and Distillation from Autoregressive to Non-Autoregressive Speech Recognition

Xun Gong

Zhikai Zhou

Y. Qian

225

15 Jul 2022

Subband-based Generative Adversarial Network for Non-parallel Many-to-many Voice Conversion

Hao Fei

161

13 Jul 2022

CFAD: A Chinese Dataset for Fake Audio DetectionSpeech Communication (Speech Commun.), 2022

Jiangyan Yi

Tao Wang

174

12 Jul 2022

The HCCL System for the NIST SRE21Interspeech (Interspeech), 2022

Zhuo Li

111

11 Jul 2022

Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and UnderstandingInternational Conference on Machine Learning (ICML), 2022

265

191

06 Jul 2022

Language-specific Characteristic Assistance for Code-switching Speech RecognitionInterspeech (Interspeech), 2022

Tongtong Song

Qiang Xu

Meng Ge

Longbiao Wang

Hao Shi

Yongjie Lv

Yuqin Lin

Jianwu Dang

194

29 Jun 2022

TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition BaselineInterspeech (Interspeech), 2022

Guangjing Wang

142

27 Jun 2022

SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask LearningInterspeech (Interspeech), 2022

155

27 Jun 2022

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech RecognitionInterspeech (Interspeech), 2022

235

179

16 Jun 2022

Residual Language Model for End-to-end Speech RecognitionInterspeech (Interspeech), 2022

144

15 Jun 2022

Improving CTC-based ASR Models with Gated Interlayer CollaborationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Yuting Yang

Yuke Li

Binbin Du

318

25 May 2022

Multi-Level Modeling Units for End-to-End Mandarin Speech RecognitionInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2022

Yuting Yang

Binbin Du

Yuke Li

329

24 May 2022

PERT: A New Solution to Pinyin to Character Conversion Task

Jinghui Xiao

Qun Liu

Xin Jiang

Yuanfeng Xiong

Haiteng Wu

Zhe Zhang

24 May 2022

Self-Supervised Speech Representation Learning: A ReviewIEEE Journal on Selected Topics in Signal Processing (IEEE JSTSP), 2022

Abdel-rahman Mohamed

Hung-yi Lee

Lasse Borgholt

Jakob Drachmann Havtorn

...

655

442

21 May 2022

PaddleSpeech: An Easy-to-Use All-in-One Speech ToolkitNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

...

Dianhai Yu

135

20 May 2022

Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech TranslationInterspeech (Interspeech), 2022

232

18 May 2022

One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code

160

12 May 2022

Heterogeneous Separation Consistency Training for Adaptation of Unsupervised Speech SeparationEURASIP Journal on Audio, Speech, and Music Processing (EURASIP J. Audio Speech Music Process.), 2022

Jiangyu Han

Yanhua Long

133

23 Apr 2022

Speaker-Aware Mixture of Mixtures Training for Weakly Supervised Speaker ExtractionInterspeech (Interspeech), 2022

Dongchao Yang

132

15 Apr 2022

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Qianying Liu

Zhuo Gong

Zhengdong Yang

Yuhang Yang

Sheng Li

...

Sadao Kurohashi

173

08 Apr 2022

Enhanced exemplar autoencoder with cycle consistency loss in any-to-one voice conversion

Weida Liang

Lantian Li

Wenqiang Du

Dong Wang

280

08 Apr 2022

Alternate Intermediate Conditioning with Syllable-level and Character-level Targets for Japanese ASRSpoken Language Technology Workshop (SLT), 2022

Yusuke Fujita

Tatsuya Komatsu

Yusuke Kida

210

01 Apr 2022

Memory-Efficient Training of RNN-Transducer with Sampled SoftmaxInterspeech (Interspeech), 2022

Jaesong Lee

Lukas Lee

Shinji Watanabe

285

31 Mar 2022

Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech DatasetInterspeech (Interspeech), 2022

...

Pengyuan Zhang

Lei Xie

Yonghong Yan

146

31 Mar 2022

An Empirical Study of Language Model Integration for Transducer based Speech RecognitionInterspeech (Interspeech), 2022

Zhijian Ou

193

31 Mar 2022

CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASRInterspeech (Interspeech), 2022

Zhijian Ou

159

31 Mar 2022

Exploiting Single-Channel Speech for Multi-Channel End-to-End Speech Recognition: A Comparative StudyInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2022

Keyu An

Ji Xiao

Zhijian Ou

107

31 Mar 2022