Title
Large-scale ASR Domain Adaptation using Self- and Semi-supervised Learning DongSeon Hwang Ananya Misra Zhouyuan Huo Nikhil Siddhartha Shefali Garg David Qiu K. Sim Trevor Strohman F. Beaufays Yanzhang He 158 38 0 01 Oct 2021
Comparison of Self-Supervised Speech Pre-Training Methods on Flemish Dutch Jakob Poncelet Hugo Van hamme SSL 56 1 0 29 Sep 2021
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang Daniel S. Park Wei Han James Qin Anmol Gulati ... Zhifeng Chen Quoc V. Le Chung-Cheng Chiu Ruoming Pang Yonghui Wu SSL 86 176 0 27 Sep 2021
Topic Model Robustness to Automatic Speech Recognition Errors in Podcast Transcripts Raluca Alexandra Fetic Mikkel Jordahn Lucas Chaves Lima R. A. F. Egebæk Martin Carsten Nielsen Benjamin Biering Lars Kai Hansen 53 1 0 25 Sep 2021
Simple and Effective Zero-shot Cross-lingual Phoneme Recognition Qiantong Xu Alexei Baevski Michael Auli VLM 135 90 0 23 Sep 2021
Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition Felix Wu Kwangyoun Kim Jing Pan Kyu Jeong Han Kilian Q. Weinberger Yoav Artzi 60 75 0 14 Sep 2021
Text-Free Prosody-Aware Generative Spoken Language Modeling Eugene Kharitonov Ann Lee Adam Polyak Yossi Adi Jade Copet ... Tu Nguyen M. Rivière Abdel-rahman Mohamed Emmanuel Dupoux Wei-Ning Hsu 92 122 0 07 Sep 2021
Injecting Text in Self-Supervised Speech Pretraining Zhehuai Chen Yu Zhang Andrew Rosenberg Bhuvana Ramabhadran Gary Wang Pedro J. Moreno SSL 88 36 0 27 Aug 2021
W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training Yu-An Chung Yu Zhang Wei Han Chung-Cheng Chiu James Qin Ruoming Pang Yonghui Wu SSL VLM 67 429 0 07 Aug 2021
Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech Processing Benjamin van Niekerk Leanne Nortje Matthew Baas Herman Kamper SSL 135 32 0 02 Aug 2021
An Adapter Based Pre-Training for Efficient and Scalable Self-Supervised Speech Representation Learning Samuel Kessler Bethan Thomas S. Karout SSL 79 30 0 26 Jul 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 95 73 0 19 Jul 2021
Speech Representation Learning Combining Conformer CPC with Deep Cluster for the ZeroSpeech Challenge 2021 Takashi Maekaku Xuankai Chang Yuya Fujita Li-Wei Chen Shinji Watanabe Alexander I. Rudnicky 146 13 0 13 Jul 2021
Direct speech-to-speech translation with discrete units Ann Lee Peng-Jen Chen Changhan Wang Jiatao Gu Sravya Popuri ... Yossi Adi Qing He Yun Tang J. Pino Wei-Ning Hsu 82 192 0 12 Jul 2021
Layer-wise Analysis of a Self-supervised Speech Representation Model Ankita Pasad Ju-Chieh Chou Karen Livescu SSL 98 308 0 10 Jul 2021
Information Retrieval for ZeroSpeech 2021: The Submission by University of Wroclaw J. Chorowski Grzegorz Ciesielski Jaroslaw Dzikowski Adrian Lañcucki R. Marxer Mateusz Opala P. Pusz Paweł Rychlikowski Michal Stypulkowski 70 12 0 22 Jun 2021
Kaizen: Continuously improving teacher using Exponential Moving Average for semi-supervised speech recognition Vimal Manohar Tatiana Likhomanenko Qiantong Xu Wei-Ning Hsu R. Collobert Yatharth Saraf Geoffrey Zweig Abdel-rahman Mohamed 105 26 0 14 Jun 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 188 3,006 0 14 Jun 2021
A Comparative Study on Neural Architectures and Training Methods for Japanese Speech Recognition Shigeki Karita Yotaro Kubo M. Bacchiani Llion Jones 46 13 0 09 Jun 2021
Unsupervised Automatic Speech Recognition: A Review Hanan Aldarmaki Asad Ullah Nazar Zaki VLM SSL 41 59 0 09 Jun 2021
SpeechBrain: A General-Purpose Speech Toolkit Mirco Ravanelli Titouan Parcollet Peter William VanHarn Plantinga Aku Rouhe Samuele Cornell ... William Aris Hwidong Na Yan Gao R. Mori Yoshua Bengio 108 769 0 08 Jun 2021
Unsupervised Speech Recognition Alexei Baevski Wei-Ning Hsu Alexis Conneau Michael Auli SSL 136 275 0 24 May 2021
End-to-End Speech Translation with Pre-trained Models and Adapters: UPC at IWSLT 2021 Gerard I. Gállego Ioannis Tsiamas Carlos Escolano José A. R. Fonollosa Marta R. Costa-jussá 51 31 0 10 May 2021
The Zero Resource Speech Challenge 2021: Spoken language modelling Ewan Dunbar Mathieu Bernard Nicolas Hamilakis Tu Nguyen Maureen de Seyssel Patricia Roze M. Rivière Eugene Kharitonov Emmanuel Dupoux 181 50 0 29 Apr 2021
One Billion Audio Sounds from GPU-enabled Modular Synthesis Joseph P. Turian Jordie Shier George Tzanetakis K. McNally Max Henry 103 22 0 27 Apr 2021
Large-Scale Self- and Semi-Supervised Learning for Speech Translation Changhan Wang Anne Wu J. Pino Alexei Baevski Michael Auli Alexis Conneau SSL 74 46 0 14 Apr 2021
BSTC: A Large-Scale Chinese-English Speech Translation Dataset Ruiqing Zhang Xiyang Wang Chuanqiang Zhang Zhongjun He Hua Wu Zhi Li Haifeng Wang Ying-Cong Chen Qinfei Li 72 39 0 08 Apr 2021
Pushing the Limits of Non-Autoregressive Speech Recognition Edwin G. Ng Chung-Cheng Chiu Yu Zhang William Chan VLM 54 27 0 07 Apr 2021
Utilizing Self-supervised Representations for MOS Prediction Wei-Cheng Tseng Chien-yu Huang Wei-Tsung Kao Yist Y. Lin Hung-yi Lee SSL 105 65 0 07 Apr 2021
SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network William Chan Daniel S. Park Chris A. Lee Yu Zhang Quoc V. Le Mohammad Norouzi AI4TS 90 138 0 05 Apr 2021
Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training Wei-Ning Hsu Anuroop Sriram Alexei Baevski Tatiana Likhomanenko Qiantong Xu ... Jacob Kahn Ann Lee R. Collobert Gabriel Synnaeve Michael Auli SSL 84 241 0 02 Apr 2021
Unsupervised Acoustic Unit Discovery by Leveraging a Language-Independent Subword Discriminative Feature Representation Siyuan Feng Piotr Żelasko Laureano Moro-Velazquez O. Scharenborg 62 4 0 02 Apr 2021
Configurable Privacy-Preserving Automatic Speech Recognition Ranya Aloufi Hamed Haddadi David E. Boyle 65 10 0 01 Apr 2021
Speech Resynthesis from Discrete Disentangled Self-Supervised Representations Adam Polyak Yossi Adi Jade Copet Eugene Kharitonov Kushal Lakhotia Wei-Ning Hsu Abdel-rahman Mohamed Emmanuel Dupoux 122 318 0 01 Apr 2021
Residual Energy-Based Models for End-to-End Speech Recognition Qiujia Li Yu Zhang Yue Liu Liangliang Cao P. Woodland 60 14 0 25 Mar 2021
Fast Development of ASR in African Languages using Self Supervised Speech Representation Learning Jama Hussein Mohamud Lloyd Thompson A. Ndoye Laurent Besacier 67 5 0 16 Mar 2021
Multi-Format Contrastive Learning of Audio Representations Luyu Wang Aaron van den Oord 95 59 0 11 Mar 2021
Variable-rate discrete representation learning Sander Dieleman C. Nash Jesse Engel Karen Simonyan BDL DRL 82 24 0 10 Mar 2021
Self-supervised Pretraining of Visual Features in the Wild Priya Goyal Mathilde Caron Benjamin Lefaudeux Min Xu Pengchao Wang ... Mannat Singh Vitaliy Liptchinsky Ishan Misra Armand Joulin Piotr Bojanowski VLM SSL 96 274 0 02 Mar 2021
Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation Renjie Zheng Junkun Chen Mingbo Ma Liang Huang 155 69 0 10 Feb 2021
Generative Spoken Language Modeling from Raw Audio Kushal Lakhotia Evgeny Kharitonov Wei-Ning Hsu Yossi Adi Adam Polyak ... Tu Nguyen Jade Copet Alexei Baevski A. Mohamed Emmanuel Dupoux AuLLM 275 366 0 01 Feb 2021
On Scaling Contrastive Representations for Low-Resource Speech Recognition Lasse Borgholt T. M. S. Tax Jakob Drachmann Havtorn Lars Maaløe Christian Igel SSL 51 5 0 01 Feb 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 113 496 0 02 Jan 2021
The effectiveness of unsupervised subword modeling with autoregressive and cross-lingual phone-aware networks Siyuan Feng O. Scharenborg SSL 45 3 0 17 Dec 2020
MLS: A Large-Scale Multilingual Dataset for Speech Research Vineel Pratap Qiantong Xu Anuroop Sriram Gabriel Synnaeve R. Collobert AuLLM 154 512 0 07 Dec 2020
Neural Representations for Modeling Variation in Speech Martijn Bartelds Wietse de Vries Faraz Sanal Caitlin Richter M. Liberman Martijn B. Wieling SSL DRL 48 23 0 25 Nov 2020
The Zero Resource Speech Benchmark 2021: Metrics and baselines for unsupervised spoken language modeling Tu Nguyen Maureen de Seyssel Patricia Roze M. Rivière Evgeny Kharitonov Alexei Baevski Ewan Dunbar Emmanuel Dupoux SSL 144 108 0 23 Nov 2020
On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition Manon Macary Marie Tahon Yannick Esteve Anthony Rousseau SSL 77 55 0 18 Nov 2020
Integration of speech separation, diarization, and recognition for multi-speaker meetings: System description, comparison, and analysis Desh Raj Pavel Denisov Zhuo Chen Hakan Erdogan Zili Huang ... Yi Luo Naoyuki Kanda Jinyu Li Scott Wisdom J. Hershey 60 88 0 03 Nov 2020
Joint Masked CPC and CTC Training for ASR Chaitanya Talnikar Tatiana Likhomanenko R. Collobert Gabriel Synnaeve SSL 110 27 0 30 Oct 2020