Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech
Pre-Training for Adaptation to Unseen Languages

Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages

21 May 2023

Andrew Rouditchenko

Leonid Karlinsky

David F. Harwath

Brian Kingsbury

Papers citing "Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages"

19 / 19 papers shown

Title
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition Andrew Rouditchenko Saurabhchand Bhati Samuel Thomas Hilde Kuehne Rogerio Feris 98 1 0 03 Feb 2025
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages Leena G Pillai Kavya Manohar Basil K Raju Elizabeth Sherly 21 0 0 07 Nov 2024
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition Andrés Piñeiro-Martín C. García-Mateo Laura Docío-Fernández María del Carmen López-Pérez Georg Rehm 19 3 0 25 Sep 2024
Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text Hongfei Xue Wei Ren Xuelong Geng Kun Wei Longhao Li Qijie Shao Linju Yang Kai Diao Lei Xie AuLLM 18 3 0 17 Sep 2024
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations Kavya Manohar Leena G Pillai 16 3 0 04 Sep 2024
Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems Chin Yuen Kwok J. Yip Eng Siong Chng CLL 27 1 0 04 Jul 2024
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages Holy Lovenia Rahmad Mahendra Salsabil Maulana Akbar Lester James Validad Miranda Jennifer Santoso ... Genta Indra Winata Ruochen Zhang Fajri Koto Zheng-Xin Yong Samuel Cahyawijaya 77 9 0 14 Jun 2024
Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't Chihiro Taguchi David Chiang 16 2 0 13 Jun 2024
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets Jiatong Shi Shih-Heng Wang William Chen Martijn Bartelds Vanya Bannihatti Kumar ... Xuankai Chang Dan Jurafsky Karen Livescu Hung-yi Lee Shinji Watanabe AuLLM 75 5 0 12 Jun 2024
Wav2Gloss: Generating Interlinear Glossed Text from Speech Taiqi He Kwanghee Choi Lindia Tjuatja Nathaniel R. Robinson Jiatong Shi Shinji Watanabe Graham Neubig David R. Mortensen Lori S. Levin VLM 30 2 0 19 Mar 2024
The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language Jian Zhu Changbing Yang Farhan Samir Jahurul Islam 25 4 0 14 Nov 2023
Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning William Chen Jiatong Shi Brian Yan Dan Berrebbi Wangyou Zhang Yifan Peng Xuankai Chang Soumi Maiti Shinji Watanabe 24 8 0 26 Sep 2023
Using fine-tuning and min lookahead beam search to improve Whisper Andrea Do Oscar Brown Zhengjie Wang Nikhil Mathew Zixin Liu Jawwad Ahmed Cheng Yu 25 1 0 19 Sep 2023
Scaling Speech Technology to 1,000+ Languages Vineel Pratap Andros Tjandra Bowen Shi Paden Tomasello Arun Babu ... Yossi Adi Xiaohui Zhang Wei-Ning Hsu Alexis Conneau Michael Auli VLM 73 297 0 22 May 2023
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages Yu Zhang Wei Han James Qin Yongqiang Wang Ankur Bapna ... Pedro J. Moreno Chung-Cheng Chiu J. Schalkwyk Franccoise Beaufays Yonghui Wu VLM 77 250 0 02 Mar 2023
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval Andrew Rouditchenko Yung-Sung Chuang Nina Shvetsova Samuel Thomas Rogerio Feris Brian Kingsbury Leonid Karlinsky David F. Harwath Hilde Kuehne James R. Glass VLM 21 4 0 07 Oct 2022
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech Alexis Conneau Min Ma Simran Khanuja Yu Zhang Vera Axelrod Siddharth Dalmia Jason Riesa Clara E. Rivera Ankur Bapna VLM 78 282 0 25 May 2022
Cascaded Multilingual Audio-Visual Learning from Videos Andrew Rouditchenko Angie Boggust David F. Harwath Samuel Thomas Hilde Kuehne ... Rameswar Panda Rogerio Feris Brian Kingsbury M. Picheny James R. Glass 47 8 0 08 Nov 2021
Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 Sameer Khurana Antoine Laurent James R. Glass VLM 35 18 0 07 Oct 2021