HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

14 June 2021

Papers citing "HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units"

31 / 431 papers shown

Title
Towards a Common Speech Analysis Engine Hagai Aronowitz Itai Gat E. Morais Weizhong Zhu R. Hoory 12 3 0 01 Mar 2022
TRILLsson: Distilled Universal Paralinguistic Speech Representations Joel Shor Subhashini Venugopalan 17 37 0 01 Mar 2022
Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation Hemlata Tak Massimiliano Todisco Xin Wang Jee-weon Jung Junichi Yamagishi Nicholas W. D. Evans 29 151 0 24 Feb 2022
Word Segmentation on Discovered Phone Units with Dynamic Programming and Self-Supervised Scoring Herman Kamper 21 25 0 24 Feb 2022
Domain Adaptation of low-resource Target-Domain models using well-trained ASR Conformer Models Vrunda N. Sukhadia S. Umesh 19 8 0 18 Feb 2022
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition Zitian Zhang Jie M. Zhang Jian-Shu Zhang Ming Wu Xin Fang Lirong Dai SSL 27 10 0 15 Feb 2022
Compute Trends Across Three Eras of Machine Learning J. Sevilla Lennart Heim A. Ho T. Besiroglu Marius Hobbhahn Pablo Villalobos 20 267 0 11 Feb 2022
Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition Bethan Thomas Samuel Kessler S. Karout 10 70 0 07 Feb 2022
Speaker Normalization for Self-supervised Speech Emotion Recognition Itai Gat Hagai Aronowitz Weizhong Zhu E. Morais R. Hoory 25 50 0 02 Feb 2022
On Training Targets and Activation Functions for Deep Representation Learning in Text-Dependent Speaker Verification A. Sarkar Z. Tan 11 2 0 17 Jan 2022
Speech Resources in the Tamasheq Language Marcely Zanon Boito Fethi Bougares Florentin Barbier Souhir Gahbiche Loïc Barrault Mickael Rouvier Yannick Esteve 23 14 0 13 Jan 2022
Robust Self-Supervised Audio-Visual Speech Recognition Bowen Shi Wei-Ning Hsu Abdel-rahman Mohamed 24 90 0 05 Jan 2022
Self-Supervised Learning for speech recognition with Intermediate layer supervision Chengyi Wang Yu-Huan Wu Sanyuan Chen Shujie Liu Jinyu Li Yao Qian Zhenglu Yang SSL 16 28 0 16 Dec 2021
Textless Speech-to-Speech Translation on Real Data Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen ... Sravya Popuri Yossi Adi J. Pino Jiatao Gu Wei-Ning Hsu 12 142 0 15 Dec 2021
FLAVA: A Foundational Language And Vision Alignment Model Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela CLIP VLM 38 686 0 08 Dec 2021
ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet Siddhant Arora Siddharth Dalmia Pavel Denisov Xuankai Chang Yushi Ueda ... Karthik Ganesan Brian Yan Ngoc Thang Vu A. Black Shinji Watanabe VLM 23 74 0 29 Nov 2021
Speech Tasks Relevant to Sleepiness Determined with Deep Transfer Learning Bang Tran Youxiang Zhu Xiaohui Liang J. Schwoebel L. Warrenburg 10 7 0 29 Nov 2021
Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT Based on the Quran Reciters Dataset Aly Moustafa Salah A. Aly 13 1 0 11 Nov 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 11 111 0 03 Nov 2021
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features Ryandhimas E. Zezario Szu-Wei Fu Fei Chen C. Fuh Hsin-Min Wang Yu Tsao DiffM 28 75 0 03 Nov 2021
TorchAudio: Building Blocks for Audio and Speech Processing Yao-Yuan Yang Moto Hira Zhaoheng Ni Anjali Chourdia Artyom Astafurov ... Sean Narenthiran Shinji Watanabe Soumith Chintala Vincent Quenneville-Bélair Yangyang Shi 31 164 0 28 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 73 1,694 0 26 Oct 2021
Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition Li-Wei Chen Alexander I. Rudnicky VLM 8 118 0 12 Oct 2021
Word Order Does Not Matter For Speech Recognition Vineel Pratap Qiantong Xu Tatiana Likhomanenko Gabriel Synnaeve R. Collobert 27 4 0 12 Oct 2021
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training Sanyuan Chen Yu Wu Chengyi Wang Zhengyang Chen Zhuo Chen ... Jian Wu Yao Qian Furu Wei Jinyu Li Xiangzhan Yu SSL 22 84 0 12 Oct 2021
Universal Paralinguistic Speech Representations Using Self-Supervised Conformers Joel Shor A. Jansen Wei Han Daniel S. Park Yu Zhang SSL AI4TS 33 54 0 09 Oct 2021
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT Heng-Jui Chang Shu-Wen Yang Hung-yi Lee SSL 22 163 0 05 Oct 2021
Text-Free Prosody-Aware Generative Spoken Language Modeling Eugene Kharitonov Ann Lee Adam Polyak Yossi Adi Jade Copet ... Tu Nguyen M. Rivière Abdel-rahman Mohamed Emmanuel Dupoux Wei-Ning Hsu 30 116 0 07 Sep 2021
Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development Mingkuan Liu Chi Zhang Hua Xing C. Feng Mon-Chu Chen Judith Bishop Grace Ngapo 16 3 0 01 Sep 2021
Signal Transformer: Complex-valued Attention and Meta-Learning for Signal Recognition Yihong Dong Ying Peng Muqiao Yang Songtao Lu Qingjiang Shi 38 9 0 05 Jun 2021
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang James Qin Daniel S. Park Wei Han Chung-Cheng Chiu Ruoming Pang Quoc V. Le Yonghui Wu VLM SSL 139 308 0 20 Oct 2020