TED-LIUM 3: twice as much data and corpus repartition for experiments on speaker adaptation

12 May 2018

Papers citing "TED-LIUM 3: twice as much data and corpus repartition for experiments on speaker adaptation"

50 / 205 papers shown

Title
Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised Speech Models Reem Gody David Harwath 20 3 0 03 Dec 2022
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning Qiu-shi Zhu Long Zhou Zi-Hua Zhang Shujie Liu Binxing Jiao Jie Zhang Lirong Dai Daxin Jiang Jinyu Li Furu Wei 33 37 0 21 Nov 2022
Speech-to-Speech Translation For A Real-world Unwritten Language Peng-Jen Chen Ke M. Tran Yilin Yang Jingfei Du Justine T. Kao ... Sravya Popuri Changhan Wang J. Pino Wei-Ning Hsu Ann Lee 39 26 0 11 Nov 2022
InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss Yosuke Higuchi Tetsuji Ogawa Tetsunori Kobayashi Shinji Watanabe 32 0 0 02 Nov 2022
Modular Hybrid Autoregressive Transducer Zhong Meng Tongzhou Chen Rohit Prabhavalkar Yu Zhang Gary Wang ... Bhuvana Ramabhadran Yifan Jiang Ehsan Variani Yinghui Huang Pedro J. Moreno 34 20 0 31 Oct 2022
Improving Speech-to-Speech Translation Through Unlabeled Text Xuan-Phi Nguyen Sravya Popuri Changhan Wang Yun Tang Ilia Kulikov Hongyu Gong 19 9 0 26 Oct 2022
ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition Sanchit Gandhi Patrick von Platen Alexander M. Rush 30 24 0 24 Oct 2022
G-Augment: Searching for the Meta-Structure of Data Augmentation Policies for ASR Gary Wang Ekin D.Cubuk Andrew Rosenberg Shuyang Cheng Ron J. Weiss Bhuvana Ramabhadran Pedro J. Moreno Quoc V. Le Daniel S. Park 30 1 0 19 Oct 2022
Direct Speech Translation for Automatic Subtitling Sara Papi Marco Gaido Alina Karakanta Mauro Cettolo Matteo Negri Marco Turchi 54 11 0 27 Sep 2022
Controllable Data Generation by Deep Learning: A Review Shiyu Wang Yuanqi Du Xiaojie Guo Bo Pan Zhaohui Qin Liang Zhao 33 28 0 19 Jul 2022
u-HuBERT: Unified Mixed-Modal Speech Pretraining And Zero-Shot Transfer to Unlabeled Modality Wei-Ning Hsu Bowen Shi SSL VLM 29 42 0 14 Jul 2022
Online Continual Learning of End-to-End Speech Recognition Models Muqiao Yang Ian Lane Shinji Watanabe CLL 22 25 0 11 Jul 2022
Boosting Cross-Domain Speech Recognition with Self-Supervision Hanjing Zhu Gaofeng Cheng Jindong Wang Wenxin Hou Pengyuan Zhang Yonghong Yan 19 13 0 20 Jun 2022
Residual Language Model for End-to-end Speech Recognition E. Tsunoo Yosuke Kashiwagi Chaitanya Narisetty Shinji Watanabe 30 11 0 15 Jun 2022
The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task Ziqiang Zhang Junyi Ao Long Zhou Shujie Liu Furu Wei Jinyu Li 25 9 0 12 Jun 2022
Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos Alexander Waibel M. Behr Fevziye Irem Eyiokur Dogucan Yaman Tuan-Nam Nguyen Carlos Mullov Mehmet Arif Demirtas Alperen Kantarci Stefan Constantin H. K. Ekenel CVBM 15 14 0 09 Jun 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 352 0 21 May 2022
Automatic Spoken Language Identification using a Time-Delay Neural Network Benjamin Kepecs Homayoon Beigi 6 2 0 19 May 2022
Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation Assessment Yuan Gong Ziyi Chen I. Chu Peng Chang James R. Glass 14 49 0 06 May 2022
Efficient yet Competitive Speech Translation: FBK@IWSLT2022 Marco Gaido Sara Papi Dennis Fucci G. Fiameni Matteo Negri Marco Turchi 33 19 0 05 May 2022
ASR in German: A Detailed Error Analysis John M. Wirth René Peinl 26 5 0 12 Apr 2022
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation Sravya Popuri Peng-Jen Chen Changhan Wang J. Pino Yossi Adi Jiatao Gu Wei-Ning Hsu Ann Lee 28 56 0 06 Apr 2022
Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset Zehui Yang Yifan Chen Lei Luo Runyan Yang Lingxuan Ye ... Yaohui Jin Qingqing Zhang Pengyuan Zhang Lei Xie Yonghong Yan 20 47 0 31 Mar 2022
Short-Term Word-Learning in a Dynamically Changing Environment Christian Huber Rishu Kumar Ondrej Bojar A. Waibel 21 0 0 29 Mar 2022
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition Guan-Ting Lin Shang-Wen Li Hung-yi Lee TTA VLM 21 10 0 27 Mar 2022
Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation Beatrice Savoldi Marco Gaido L. Bentivogli Matteo Negri Marco Turchi 38 26 0 18 Mar 2022
Visual Speech Recognition for Multiple Languages in the Wild Pingchuan Ma Stavros Petridis M. Pantic VLM 130 145 0 26 Feb 2022
Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR Yufei Liu Rao Ma Haihua Xu Yi He Zejun Ma Weibin Zhang 28 12 0 26 Jan 2022
Textual Data Augmentation for Arabic-English Code-Switching Speech Recognition A. Hussein Shammur A. Chowdhury Ahmed Abdelali Najim Dehak Ahmed M. Ali Sanjeev Khudanpur 38 11 0 07 Jan 2022
Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question Yuanfeng Song Raymond Chi-Wing Wong Xuefang Zhao Di Jiang 39 13 0 04 Jan 2022
On the Use of External Data for Spoken Named Entity Recognition Ankita Pasad Felix Wu Suwon Shon Karen Livescu Kyu Jeong Han 40 16 0 14 Dec 2021
Are E2E ASR models ready for an industrial usage? Valentin Vielzeuf G. Antipov 26 8 0 09 Dec 2021
Training end-to-end speech-to-text models on mobile phones S. Zitha Raghavendra Rao Suresh Pooja S B. Rao T. V. Prabhakar 19 1 0 07 Dec 2021
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech Suwon Shon Ankita Pasad Felix Wu Pablo Brusco Yoav Artzi Karen Livescu Kyu Jeong Han AuLLM ELM 45 74 0 19 Nov 2021
Retrieving Speaker Information from Personalized Acoustic Models for Speech Recognition Salima Mdhaffar J. Bonastre Marc Tommasi N. Tomashenko Yannick Esteve 25 12 0 07 Nov 2021
Privacy attacks for automatic speech recognition acoustic models in a federated learning framework N. Tomashenko Salima Mdhaffar Marc Tommasi Yannick Esteve J. Bonastre 38 25 0 06 Nov 2021
Effective Cross-Utterance Language Modeling for Conversational Speech Recognition Bi-Cheng Yan Hsin-Wei Wang Shih-Hsuan Chiu Hsuan-Sheng Chiu Berlin Chen 21 1 0 05 Nov 2021
Conformal prediction for text infilling and part-of-speech prediction N. Dey Jing Ding Jack G. Ferrell Carolina Kapper Maxwell Lovig Emiliano Planchon Jonathan P. Williams UQLM 24 19 0 04 Nov 2021
DeToxy: A Large-Scale Multimodal Dataset for Toxicity Classification in Spoken Utterances Sreyan Ghosh Samden Lepcha S. Sakshi R. Shah S. Umesh 26 14 0 14 Oct 2021
CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese Arnaldo Cândido Júnior Edresson Casanova A. S. Soares F. S. Oliveira L. Oliveira ... Daniel Peixoto Pinto da Silva Fernando Gorgulho Fayet B. Carlotto L. Gris S. Aluísio 23 14 0 14 Oct 2021
SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition Jing Pan Tao Lei Kwangyoun Kim Kyu Jeong Han Shinji Watanabe VLM 34 9 0 11 Oct 2021
Advancing Momentum Pseudo-Labeling with Conformer and Initialization Strategy Yosuke Higuchi Niko Moritz Jonathan Le Roux Takaaki Hori 19 11 0 11 Oct 2021
Injecting Text and Cross-lingual Supervision in Few-shot Learning from Self-Supervised Models Sanjeev Khudanpur Desh Raj Sanjeev Khudanpur 59 6 0 10 Oct 2021
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition Xuankai Chang Takashi Maekaku Pengcheng Guo Jing Shi Yen-Ju Lu ... Tianzi Wang Shu-Wen Yang Yu Tsao Hung-yi Lee Shinji Watanabe SSL AI4TS 24 81 0 09 Oct 2021
Wav2vec-S: Semi-Supervised Pre-Training for Low-Resource ASR Hanjing Zhu Li Wang Jindong Wang Gaofeng Cheng Pengyuan Zhang Yonghong Yan SSL VLM 24 9 0 09 Oct 2021
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition Qiujia Li Yu Zhang David Qiu Yanzhang He Liangliang Cao P. Woodland 26 11 0 07 Oct 2021
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang Daniel S. Park Wei Han James Qin Anmol Gulati ... Zhifeng Chen Quoc V. Le Chung-Cheng Chiu Ruoming Pang Yonghui Wu SSL 27 175 0 27 Sep 2021
Is "moby dick" a Whale or a Bird? Named Entities and Terminology in Speech Translation Marco Gaido Susana Rodríguez Matteo Negri L. Bentivogli Marco Turchi 24 10 0 15 Sep 2021
Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition Felix Wu Kwangyoun Kim Jing Pan Kyu Jeong Han Kilian Q. Weinberger Yoav Artzi 27 71 0 14 Sep 2021
StreamHover: Livestream Transcript Summarization and Annotation Sangwoo Cho Franck Dernoncourt Timothy Jeewun Ganter Trung Bui Nedim Lipka Walter Chang Hailin Jin Jonathan Brandt H. Foroosh Fei Liu 3DGS AI4TS 24 29 0 11 Sep 2021