Title
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 51 2 0 05 Apr 2022
End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation Xuankai Chang Takashi Maekaku Yuya Fujita Shinji Watanabe VLM 100 46 0 01 Apr 2022
PADA: Pruning Assisted Domain Adaptation for Self-Supervised Speech Representations L. D. Prasad Sreyan Ghosh S. Umesh 91 14 0 31 Mar 2022
How Does Pre-trained Wav2Vec 2.0 Perform on Domain Shifted ASR? An Extensive Benchmark on Air Traffic Control Communications Juan Pablo Zuluaga Amrutha Prasad Iuliia Nigmatulina Seyyed Saeed Sarfjoo P. Motlícek Matthias Kleinert H. Helmke Oliver Ohneiser Qingran Zhan 78 44 0 31 Mar 2022
Generative Spoken Dialogue Language Modeling Tu Nguyen Eugene Kharitonov Jade Copet Yossi Adi Wei-Ning Hsu ... Paden Tomasello Robin Algayres Benoît Sagot Abdel-rahman Mohamed Emmanuel Dupoux AuLLM 111 88 0 30 Mar 2022
Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition Junrui Ni Liming Wang Heting Gao Kaizhi Qian Yang Zhang Shiyu Chang M. Hasegawa-Johnson 66 25 0 29 Mar 2022
LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT Rui Wang Qibing Bai Junyi Ao Long Zhou Zhixiang Xiong Zhihua Wei Yu Zhang Tom Ko Haizhou Li 72 65 0 29 Mar 2022
Enhancing Speech Recognition Decoding via Layer Aggregation Tomer Wullach Shlomo E. Chazan 43 1 0 21 Mar 2022
A $^3$ T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing Richard He Bai Renjie Zheng Junkun Chen Xintong Li Mingbo Ma Liang Huang 116 53 0 18 Mar 2022
Audio Self-supervised Learning: A Survey Shuo Liu Adria Mallol-Ragolta Emilia Parada-Cabeleiro Kun Qian Xingshuo Jing Alexander Kathan Bin Hu Bjoern W. Schuller SSL 97 109 0 02 Mar 2022
Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training Ramon Sanabria Wei-Ning Hsu Alexei Baevski Michael Auli 71 7 0 01 Mar 2022
TRILLsson: Distilled Universal Paralinguistic Speech Representations Joel Shor Subhashini Venugopalan 79 41 0 01 Mar 2022
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition Xichen Pan Peiyu Chen Yichen Gong Helong Zhou Xinbing Wang Zhouhan Lin SSL 67 36 0 24 Feb 2022
Word Segmentation on Discovered Phone Units with Dynamic Programming and Self-Supervised Scoring Herman Kamper 105 26 0 24 Feb 2022
Benchmarking Generative Latent Variable Models for Speech Jakob Drachmann Havtorn Lasse Borgholt Søren Hauberg J. Frellsen Lars Maaløe 57 3 0 22 Feb 2022
textless-lib: a Library for Textless Spoken Language Processing Eugene Kharitonov Jade Copet Kushal Lakhotia Tu Nguyen Paden Tomasello ... A. Elkahky Wei-Ning Hsu Abdel-rahman Mohamed Emmanuel Dupoux Yossi Adi 116 33 0 15 Feb 2022
Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding Peter Sullivan Toshiko Shibano Muhammad Abdul-Mageed 78 11 0 10 Feb 2022
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language Alexei Baevski Wei-Ning Hsu Qiantong Xu Arun Babu Jiatao Gu Michael Auli SSL VLM ViT 123 860 0 07 Feb 2022
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling Puyuan Peng David Harwath SSL 96 26 0 07 Feb 2022
Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition Bethan Thomas Samuel Kessler S. Karout 66 72 0 07 Feb 2022
Self-supervised Learning with Random-projection Quantizer for Speech Recognition Chung-Cheng Chiu James Qin Yu Zhang Jiahui Yu Yonghui Wu SSL 111 169 0 03 Feb 2022
SPIRAL: Self-supervised Perturbation-Invariant Representation Learning for Speech Pre-Training Wenyong Huang Zhenhe Zhang Y. Yeung Xin Jiang Qun Liu 111 23 0 25 Jan 2022
Run-and-back stitch search: novel block synchronous decoding for streaming encoder-decoder ASR E. Tsunoo Chaitanya Narisetty Michael Hentschel Yosuke Kashiwagi Shinji Watanabe 36 2 0 25 Jan 2022
CVSS Corpus and Massively Multilingual Speech-to-Speech Translation Yeting Jia Michelle Tadmor Ramanovich Quan Wang Heiga Zen SLR 94 70 0 11 Jan 2022
Multi-Variant Consistency based Self-supervised Learning for Robust Automatic Speech Recognition Changfeng Gao Gaofeng Cheng Pengyuan Zhang 72 4 0 23 Dec 2021
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem Jing Shi Xuankai Chang Tomoki Hayashi Yen-Ju Lu Shinji Watanabe Bo Xu 95 19 0 17 Dec 2021
Self-Supervised Learning for speech recognition with Intermediate layer supervision Chengyi Wang Yu-Huan Wu Sanyuan Chen Shujie Liu Jinyu Li Yao Qian Zhenglu Yang SSL 70 28 0 16 Dec 2021
Do We Still Need Automatic Speech Recognition for Spoken Language Understanding? Lasse Borgholt Jakob Drachmann Havtorn Mostafa Abdou Joakim Edin Lars Maaløe Anders Søgaard Christian Igel SSL 66 8 0 29 Nov 2021
The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage Daniel Galvez G. Diamos Juan Ciro Juan Felipe Cerón Keith Achorn Anjali Gopi David Kanter Maximilian Lam Mark Mazumder Vijay Janapa Reddi 137 103 0 17 Nov 2021
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 114 710 0 17 Nov 2021
Investigating self-supervised front ends for speech spoofing countermeasures Xin Wang Junichi Yamagishi AAML 77 125 0 15 Nov 2021
Scaling ASR Improves Zero and Few Shot Learning Alex Xiao Weiyi Zheng Gil Keren Duc Le Frank Zhang Christian Fuegen Ozlem Kalinli Yatharth Saraf Abdel-rahman Mohamed 67 22 0 10 Nov 2021
Membership Inference Attacks Against Self-supervised Speech Models Wei-Cheng Tseng Wei-Tsung Kao Hung-yi Lee 96 14 0 09 Nov 2021
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding Yingzhi Wang Abdelmoumene Boumadane A. Heba 97 152 0 04 Nov 2021
Voice Conversion Can Improve ASR in Very Low-Resource Settings Matthew Baas Herman Kamper 97 17 0 04 Nov 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 98 123 0 03 Nov 2021
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction Heming Wang Yao Qian Xiaofei Wang Yiming Wang Chengyi Wang Shujie Liu Takuya Yoshioka Jinyu Li DeLiang Wang 98 29 0 28 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 290 1,909 0 26 Oct 2021
Lhotse: a speech data representation library for the modern deep learning ecosystem Willem Hagemann Daniel Povey Jan "Yenda" Trmal Sanjeev Khudanpur AuLLM AI4TS 84 36 0 25 Oct 2021
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training Ankur Bapna Yu-An Chung Na Wu Anmol Gulati Ye Jia J. Clark Melvin Johnson Jason Riesa Alexis Conneau Yu Zhang VLM 134 96 0 20 Oct 2021
Self-Supervised Representation Learning: Introduction, Advances and Challenges Linus Ericsson Henry Gouk Chen Change Loy Timothy M. Hospedales SSL OOD AI4TS 85 279 0 18 Oct 2021
Improving Character Error Rate Is Not Equal to Having Clean Speech: Speech Enhancement for ASR Systems with Black-box Acoustic Models Ryosuke Sawata Yosuke Kashiwagi Shusuke Takahashi 43 6 0 12 Oct 2021
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training Sanyuan Chen Yu Wu Chengyi Wang Zhengyang Chen Zhuo Chen ... Jian Wu Yao Qian Furu Wei Jinyu Li Xiangzhan Yu SSL 74 93 0 12 Oct 2021
Advancing Momentum Pseudo-Labeling with Conformer and Initialization Strategy Yosuke Higuchi Niko Moritz Jonathan Le Roux Takaaki Hori 83 12 0 11 Oct 2021
Injecting Text and Cross-lingual Supervision in Few-shot Learning from Self-Supervised Models Sanjeev Khudanpur Desh Raj Sanjeev Khudanpur 93 6 0 10 Oct 2021
Universal Paralinguistic Speech Representations Using Self-Supervised Conformers Joel Shor A. Jansen Wei Han Daniel S. Park Yu Zhang SSL AI4TS 129 59 0 09 Oct 2021
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition Xuankai Chang Takashi Maekaku Pengcheng Guo Jing Shi Yen-Ju Lu ... Tianzi Wang Shu-Wen Yang Yu Tsao Hung-yi Lee Shinji Watanabe SSL AI4TS 78 81 0 09 Oct 2021
Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 Sameer Khurana Antoine Laurent James R. Glass VLM 117 18 0 07 Oct 2021
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition Qiujia Li Yu Zhang David Qiu Yanzhang He Liangliang Cao P. Woodland 77 11 0 07 Oct 2021
Speech Technology for Everyone: Automatic Speech Recognition for Non-Native English with Transfer Learning Toshiko Shibano Xinyi Zhang Miao Li Haejin Cho Peter Sullivan Muhammad Abdul-Mageed VLM 60 18 0 01 Oct 2021