Unsupervised Cross-lingual Representation Learning for Speech Recognition

24 June 2020

Papers citing "Unsupervised Cross-lingual Representation Learning for Speech Recognition"

50 / 402 papers shown

Title
Deploying self-supervised learning in the wild for hybrid automatic speech recognition Mostafa Karimi Changliang Liu K. Kumatani Yao Qian Tianyu Wu Jian Wu 12 3 0 17 May 2022
SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation Sameer Khurana Antoine Laurent James R. Glass 25 36 0 17 May 2022
Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge Tanel Alumäe Kunnar Kukk 13 5 0 14 May 2022
Improved Meta Learning for Low Resource Speech Recognition Satwinder Singh Ruili Wang Feng Hou 29 18 0 11 May 2022
Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language Martin Malmsten Chris Haffenden Love Borjeson 11 6 0 06 May 2022
Quantifying Language Variation Acoustically with Few Resources Martijn Bartelds Martijn B. Wieling 11 11 0 05 May 2022
ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource Speech Translation Tasks Marcely Zanon Boito John E. Ortega Hugo Riguidel Antoine Laurent Loïc Barrault ... Firas Chaabani H. Nguyen Florentin Barbier Souhir Gahbiche Yannick Esteve 17 16 0 04 May 2022
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Jeong Han Ryan T. McDonald Kilian Q. Weinberger Yoav Artzi SyDa 40 37 0 02 May 2022
How can NLP Help Revitalize Endangered Languages? A Case Study and Roadmap for the Cherokee Language Shiyue Zhang B. Frey Mohit Bansal 9 35 0 25 Apr 2022
ByT5 model for massively multilingual grapheme-to-phoneme conversion Jian Zhu Cong Zhang David Jurgens 11 36 0 06 Apr 2022
Towards End-to-end Unsupervised Speech Recognition Alexander H. Liu Wei-Ning Hsu Michael Auli Alexei Baevski SSL 13 74 0 05 Apr 2022
Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation Dan Berrebbi Jiatong Shi Brian Yan Osbel López-Francisco Jonathan D. Amith Shinji Watanabe 8 26 0 05 Apr 2022
UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022 Takaaki Saeki Detai Xin Wataru Nakata Tomoki Koriyama Shinnosuke Takamichi Hiroshi Saruwatari 25 172 0 05 Apr 2022
Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices Abner Hernandez Paula Andrea Pérez-Toro Juan Camilo Vásquez-Correa J. Orozco-Arroyave Andreas K. Maier S. Yang 19 1 0 04 Apr 2022
Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition Abner Hernandez Paula Andrea Pérez-Toro Elmar Nöth J. Orozco-Arroyave Andreas K. Maier S. Yang 23 38 0 04 Apr 2022
A Study of Gender Impact in Self-supervised Models for Speech-to-Text Systems Marcely Zanon Boito Laurent Besacier N. Tomashenko Yannick Esteve 35 18 0 04 Apr 2022
Multilingual and Multimodal Abuse Detection Rini A. Sharon Heeth Shah Debdoot Mukherjee Vikram Gupta 19 5 0 03 Apr 2022
Speaker adaptation for Wav2vec2 based dysarthric ASR M. Baskar Tim Herzig Diana Nguyen Mireia Díez Tim Polzehl L. Burget J. Černocký 28 28 0 02 Apr 2022
Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition G. Chatzoudis Manos Plitsis S. Stamouli Athanasia-Lida Dimou Athanasios Katsamanis V. Katsouros 13 11 0 01 Apr 2022
WavFT: Acoustic model finetuning with labelled and unlabelled data Utkarsh Chauhan Vikas Joshi Rupeshkumar Mehta 9 0 0 01 Apr 2022
Effectiveness of text to speech pseudo labels for forced alignment and cross lingual pretrained models for low resource speech recognition Anirudh Gupta Rishabh Gaur Ankur Dhuriya Harveen Singh Chadha Neeraj Chhimwal Priyanshi Shah Vivek Raghavan VLM 20 2 0 31 Mar 2022
Code Switched and Code Mixed Speech Recognition for Indic languages Harveen Singh Chadha Priyanshi Shah Ankur Dhuriya Neeraj Chhimwal Anirudh Gupta Vivek Raghavan 21 5 0 30 Mar 2022
Investigating Self-supervised Pretraining Frameworks for Pathological Speech Recognition Lester Phillip Violeta Wen-Chin Huang T. Toda 22 31 0 29 Mar 2022
XTREME-S: Evaluating Cross-lingual Speech Representations Alexis Conneau Ankur Bapna Yu Zhang Min Ma Patrick von Platen ... Orhan Firat Michael Auli Sebastian Ruder Jason Riesa Melvin Johnson VLM AILaw ELM 50 22 0 21 Mar 2022
Similarity and Content-based Phonetic Self Attention for Speech Recognition Kyuhong Shim Wonyong Sung 10 7 0 19 Mar 2022
Multilingual Mix: Example Interpolation Improves Multilingual Neural Machine Translation Yong Cheng Ankur Bapna Orhan Firat Yuan Cao Pidong Wang Wolfgang Macherey 15 13 0 15 Mar 2022
Language Adaptive Cross-lingual Speech Representation Learning with Sparse Sharing Sub-networks Yizhou Lu Mingkun Huang Xinghua Qu Pengfei Wei Zejun Ma 19 19 0 09 Mar 2022
Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training Ramon Sanabria Wei-Ning Hsu Alexei Baevski Michael Auli 16 7 0 01 Mar 2022
Towards a Common Speech Analysis Engine Hagai Aronowitz Itai Gat E. Morais Weizhong Zhu R. Hoory 18 3 0 01 Mar 2022
A Brief Overview of Unsupervised Neural Speech Representation Learning Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin Lars Maaløe Christian Igel BDL AI4TS SSL 19 11 0 01 Mar 2022
A Survey of Multilingual Models for Automatic Speech Recognition Hemant Yadav Sunayana Sitaram 17 35 0 25 Feb 2022
Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation Hemlata Tak Massimiliano Todisco Xin Wang Jee-weon Jung Junichi Yamagishi Nicholas W. D. Evans 32 151 0 24 Feb 2022
Self-supervised Learning with Random-projection Quantizer for Speech Recognition Chung-Cheng Chiu James Qin Yu Zhang Jiahui Yu Yonghui Wu SSL 19 162 0 03 Feb 2022
mSLAM: Massively multilingual joint pre-training for speech and text Ankur Bapna Colin Cherry Yu Zhang Ye Jia Melvin Johnson Yong Cheng Simran Khanuja Jason Riesa Alexis Conneau VLM 19 111 0 03 Feb 2022
BEA-Base: A Benchmark for ASR of Spontaneous Hungarian P. Mihajlik A. Balog T. E. Gráczi A. Kohári Balázs Tarján K. Mády 15 8 0 01 Feb 2022
Speech Resources in the Tamasheq Language Marcely Zanon Boito Fethi Bougares Florentin Barbier Souhir Gahbiche Loïc Barrault Mickael Rouvier Yannick Esteve 26 14 0 13 Jan 2022
Multi-Variant Consistency based Self-supervised Learning for Robust Automatic Speech Recognition Changfeng Gao Gaofeng Cheng Pengyuan Zhang 25 4 0 23 Dec 2021
On the Use of External Data for Spoken Named Entity Recognition Ankita Pasad Felix Wu Suwon Shon Karen Livescu Kyu Jeong Han 32 16 0 14 Dec 2021
Building a great multi-lingual teacher with sparsely-gated mixture of experts for speech recognition K. Kumatani R. Gmyr Andres Felipe Cruz Salinas Linquan Liu Wei Zuo Devang Patel Eric Sun Yu Shi MoE 29 20 0 10 Dec 2021
FLAVA: A Foundational Language And Vision Alignment Model Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela CLIP VLM 38 686 0 08 Dec 2021
ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet Siddhant Arora Siddharth Dalmia Pavel Denisov Xuankai Chang Yushi Ueda ... Karthik Ganesan Brian Yan Ngoc Thang Vu A. Black Shinji Watanabe VLM 23 74 0 29 Nov 2021
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 19 656 0 17 Nov 2021
Joint Unsupervised and Supervised Training for Multilingual ASR Junwen Bai Bo-wen Li Yu Zhang Ankur Bapna Nikhil Siddhartha K. Sim Tara N. Sainath 16 58 0 15 Nov 2021
Cascaded Multilingual Audio-Visual Learning from Videos Andrew Rouditchenko Angie Boggust David F. Harwath Samuel Thomas Hilde Kuehne ... Rameswar Panda Rogerio Feris Brian Kingsbury M. Picheny James R. Glass 65 8 0 08 Nov 2021
Towards Building ASR Systems for the Next Billion Users Tahir Javed Sumanth Doddapaneni A. Raman Kaushal Bhogale Gowtham Ramesh Anoop Kunchukuttan Pratyush Kumar Mitesh M. Khapra 36 54 0 06 Nov 2021
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging Gusseppe Bravo Rocca Peini Liu Jordi Guitart Ajay Dholakia David Ellison Jeffrey Falkanger M. Hodak 20 6 0 04 Nov 2021
Voice Conversion Can Improve ASR in Very Low-Resource Settings Matthew Baas Herman Kamper 17 14 0 04 Nov 2021
Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity Peter Wu Jiatong Shi Yifan Zhong Shinji Watanabe A. Black 14 8 0 02 Nov 2021
Pseudo-Labeling for Massively Multilingual Speech Recognition Loren Lugosch Tatiana Likhomanenko Gabriel Synnaeve R. Collobert VLM 13 29 0 30 Oct 2021
Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations Hyeong-Seok Choi Juheon Lee W. Kim Jie Hwan Lee Hoon Heo Kyogu Lee 20 150 0 27 Oct 2021