AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline

16 September 2017

Hui Bu

Papers citing "AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline"

50 / 451 papers shown

Large Language Model Should Understand Pinyin for Chinese ASR Error CorrectionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Yuang Li

Xiaosong Qiao

Xiaofeng Zhao

Huan Zhao

Wei Tang

Min Zhang

Hao Yang

168

20 Sep 2024

A quest through interconnected datasets: lessons from highly-cited ICASSP papersInternational Conference on Content-Based Multimedia Indexing (CBMI), 2024

Cynthia C. S. Liem

Doğa Taşcılar

Andrew M. Demetriou

191

19 Sep 2024

NDVQ: Robust Neural Audio Codec with Normal Distribution-Based Vector QuantizationSpoken Language Technology Workshop (SLT), 2024

Zhikang Niu

Sanyuan Chen

Long Zhou

Ziyang Ma

Xie Chen

Shujie Liu

119

19 Sep 2024

Optimizing Dysarthria Wake-Up Word Spotting: An End-to-End Approach for SLT 2024 LRDWWS ChallengeSpoken Language Technology Workshop (SLT), 2024

Yujun Wang

Lei Xie

295

16 Sep 2024

ASR Error Correction using Large Language ModelsIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2024

300

14 Sep 2024

Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved IntelligibilityIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Xiaoyu Liu

Xu Li

Joan Serrà

Santiago Pascual

253

14 Sep 2024

DualSep: A Light-weight dual-encoder convolutional recurrent network for real-time in-car speech separationSpoken Language Technology Workshop (SLT), 2024

Lei Xie

238

13 Sep 2024

LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation

Shaojun Li

Hengchao Shang

Daimeng Wei

Jiaxin Guo

Zongyao Li

Xianghui He

Min Zhang

Hao Yang

277

13 Sep 2024

An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech RecognitionSpoken Language Technology Workshop (SLT), 2024

Hsin-Wei Wang

178

10 Sep 2024

VoiceWukong: Benchmarking Deepfake Voice Detection

Ziwei Yan

Yanjie Zhao

Haoyu Wang

331

10 Sep 2024

Findings of the 2024 Mandarin Stuttering Event Detection and Automatic Speech Recognition ChallengeSpoken Language Technology Workshop (SLT), 2024

Hongfei Xue

Rong Gong

Mingchen Shao

Xin Xu

L. xilinx Wang

...

Yong Qin

Jun Du

Ming Li

Binbin Zhang

Bin Jia

182

09 Sep 2024

Lightweight Transducer Based on Frame-Level CriterionInterspeech (Interspeech), 2024

233

05 Sep 2024

LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker DiarizationInterspeech (Interspeech), 2024

Zengrui Jin

Mohan Shi

...

Yong Xu

Shi-Xiong Zhang

Daniel Povey

192

01 Sep 2024

Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on WhisperInterspeech (Interspeech), 2024

Hui Xue

150

20 Aug 2024

A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech RecognitionInterspeech (Interspeech), 2024

Long Ma

218

18 Aug 2024

ADD 2023: Towards Audio Deepfake Detection and Analysis in the Wild

Junzuo Zhou

266

09 Aug 2024

Survey: Transformer-based Models in Data Modality Conversion

225

08 Aug 2024

MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

Jiawei Huang

Yi Ren

114

08 Aug 2024

HydraFormer: One Encoder For All Subsampling RatesIEEE International Conference on Multimedia and Expo (ICME), 2024

241

08 Aug 2024

Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning

Shuai Wang

Zheng-Shou Chen

Kong Aik Lee

Yan-min Qian

Haizhou Li

341

21 Jul 2024

CUSIDE-T: Chunking, Simulating Future and Decoding for Transducer based Streaming ASR

254

14 Jul 2024

Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

Ye Bai

Jingping Chen

Jitong Chen

Wei Chen

Zhuo Chen

...

Yang Zhang

Yijie Zheng

358

05 Jul 2024

Romanization Encoding For Multilingual ASR

209

05 Jul 2024

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Qian Chen

...

Qinglin Zhang

Shiliang Zhang

Nan Zhao

Siqi Zheng

AuLLM

407

109

04 Jul 2024

Multi-Convformer: Extending Conformer with Multiple Convolution Kernels

Darshan Prabhu

Yifan Peng

Preethi Jyothi

Shinji Watanabe

242

04 Jul 2024

Towards Robust Speech Representation Learning for Thousands of Languages

William Chen

Wangyou Zhang

Yifan Peng

Xinjian Li

Jinchuan Tian

Jiatong Shi

Xuankai Chang

Soumi Maiti

Karen Livescu

Shinji Watanabe

ELM

326

30 Jun 2024

Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition

Longbiao Wang

Jianwu Dang

227

29 Jun 2024

Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study

Qing Yang

283

27 Jun 2024

MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research

Ke Ding

Guanglu Wan

196

26 Jun 2024

Exploring the Capability of Mamba in Speech Applications

300

24 Jun 2024

Revisiting Interpolation Augmentation for Speech-to-Text Generation

Chen Xu

Jingbo Zhu

184

22 Jun 2024

Transferable speech-to-text large language model alignment moduleInterspeech (Interspeech), 2024

Boyong Wu

Chao Yan

Haoran Pu

141

19 Jun 2024

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

...

509

17 Jun 2024

Robust Channel Learning for Large-Scale Radio Speaker Verification

208

16 Jun 2024

An efficient text augmentation approach for contextualized Mandarin speech recognitionInterspeech (Interspeech), 2024

Naijun Zheng

Xucheng Wan

Kai Liu

Ziqing Du

Zhou Huan

179

14 Jun 2024

Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System DesignInterspeech (Interspeech), 2024

Xin Xu

Hui Bu

Ming Li

Chin-Hui Lee

257

14 Jun 2024

On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

Jinchuan Tian

Yifan Peng

William Chen

Kwanghee Choi

Karen Livescu

Shinji Watanabe

192

13 Jun 2024

ToneUnit: A Speech Discretization Approach for Tonal Language Speech Synthesis

Xiao Chen

201

13 Jun 2024

PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models

231

12 Jun 2024

AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection

Rong Gong

Hongfei Xue

L. xilinx Wang

Xin Xu

Qisheng Li

...

Yong Qin

Binbin Zhang

Jun Du

Jia Bin

Ming Li

217

11 Jun 2024

mHuBERT-147: A Compact Multilingual HuBERT Model

443

10 Jun 2024

MaLa-ASR: Multimedia-Assisted LLM-Based ASR

Guanrou Yang

Ziyang Ma

Fan Yu

Zhifu Gao

Shiliang Zhang

Xie Chen

AuLLM

320

09 Jun 2024

Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and DiagnosisInterspeech (Interspeech), 2024

Xintong Wang

Mingqian Shi

Ye Wang

140

07 Jun 2024

MaskSR: Masked Language Model for Full-band Speech Restoration

Xu Li

Qirui Wang

Xiaoyu Liu

234

04 Jun 2024

Unveiling the Potential of LLM-Based ASR on Chinese Open-Source DatasetsInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2024

...

Lei Xie

316

03 May 2024

EfficientASR: Speech Recognition Network Compression via Attention Redundancy and Chunk-Level FFN Optimization

177

30 Apr 2024

Jointly Recognizing Speech and Singing Voices Based on Multi-Task Audio Source Separation

200

17 Apr 2024

DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition

Bi-Cheng Yan

203

26 Mar 2024

Encoding of lexical tone in self-supervised models of spoken language

291

25 Mar 2024

Skipformer: A Skip-and-Recover Strategy for Efficient Speech RecognitionIEEE International Conference on Multimedia and Expo (ICME), 2024

231

13 Mar 2024