Optimizing Speech Recognition For The Edge

26 September 2019

Papers citing "Optimizing Speech Recognition For The Edge"

48 / 48 papers shown

Title
USM RNN-T model weights binarization Oleg Rybakov Dmitriy Serdyuk Chengjian Zheng MQ 26 0 0 05 Jun 2024
USM-Lite: Quantization and Sparsity Aware Fine-tuning for Speech Recognition with Universal Speech Models Shaojin Ding David Qiu David Rim Yanzhang He Oleg Rybakov ... Tara N. Sainath Zhonglin Han Jian Li Amir Yazdanbakhsh Shivani Agrawal MQ 26 9 0 13 Dec 2023
Enabling Resource-efficient AIoT System with Cross-level Optimization: A survey Sicong Liu Bin Guo Cheng Fang Ziqi Wang Shiyan Luo Zimu Zhou Zhiwen Yu AI4CE 23 22 0 27 Sep 2023
Dynamic ASR Pathways: An Adaptive Masking Approach Towards Efficient Pruning of A Multilingual ASR Model Jiamin Xie Ke Li Jinxi Guo Andros Tjandra Shangguan Yuan Leda Sari Chunyang Wu J. Jia Jay Mahadeokar Ozlem Kalinli 20 2 0 22 Sep 2023
CoMFLP: Correlation Measure based Fast Search on ASR Layer Pruning W. Liu Zhiyuan Peng Tan Lee 11 1 0 21 Sep 2023
TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression For On-device ASR Models Shangguan Yuan Haichuan Yang Danni Li Chunyang Wu Yassir Fathullah ... J. Jia Jay Mahadeokar Xin Lei Michael Seltzer Vikas Chandra 16 2 0 05 Sep 2023
Accelerator-Aware Training for Transducer-Based Speech Recognition Suhaila M. Shakiah R. Swaminathan Hieu Duy Nguyen Raviteja Chinta Tariq Afzal Nathan Susanj Athanasios Mouchtaris Grant P. Strimel Ariya Rastrow 19 1 0 12 May 2023
Losses Can Be Blessings: Routing Self-Supervised Speech Representations Towards Efficient Multilingual and Multitask Speech Processing Yonggan Fu Yang Zhang Kaizhi Qian Zhifan Ye Zhongzhi Yu Cheng-I Jeff Lai Yingyan Lin 24 8 0 02 Nov 2022
Factorized Blank Thresholding for Improved Runtime Efficiency of Neural Transducers Duc Le Frank Seide Yuhao Wang Y. Li Kjell Schubert Ozlem Kalinli M. Seltzer 11 6 0 02 Nov 2022
Anchored Speech Recognition with Neural Transducers Desh Raj J. Jia Jay Mahadeokar Chunyang Wu Niko Moritz Xiaohui Zhang Ozlem Kalinli 6 2 0 20 Oct 2022
Learning ASR pathways: A sparse multilingual ASR model Mu Yang Andros Tjandra Chunxi Liu David C. Zhang Duc Le Ozlem Kalinli 33 13 0 13 Sep 2022
Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization A. Fasoli Chia-Yu Chen Mauricio Serrano Swagath Venkataramani G. Saon Xiaodong Cui Brian Kingsbury K. Gopalakrishnan MQ 13 6 0 16 Jun 2022
Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition Shaojin Ding R. Rikhye Qiao Liang Yanzhang He Quan Wang A. Narayanan Tom O'Malley Ian McGraw 21 26 0 08 Apr 2022
4-bit Conformer with Native Quantization Aware Training for Speech Recognition Shaojin Ding Phoenix Meadowlark Yanzhang He Lukasz Lew Shivani Agrawal Oleg Rybakov MQ 26 32 0 29 Mar 2022
TCN Mapping Optimization for Ultra-Low Power Time-Series Edge Inference Alessio Burrello Alberto Dequino Daniele Jahier Pagliari Francesco Conti Marcello Zanghieri Enrico Macii Luca Benini M. Poncino AI4TS 22 7 0 24 Mar 2022
Closing the Gap between Single-User and Multi-User VoiceFilter-Lite R. Rikhye Quan Wang Qiao Liang Yanzhang He Ian McGraw VLM 26 7 0 24 Feb 2022
Attentive Temporal Pooling for Conformer-based Streaming Language Identification in Long-form Speech Quan Wang Yang Yu Jason W. Pelecanos Yiling Huang Ignacio López Moreno 15 14 0 24 Feb 2022
Coarsening the Granularity: Towards Structurally Sparse Lottery Tickets Tianlong Chen Xuxi Chen Xiaolong Ma Yanzhi Wang Zhangyang Wang 13 34 0 09 Feb 2022
ML-EXray: Visibility into ML Deployment on the Edge Hang Qiu Ioanna Vavelidou Jian Li Evgenya Pergament Pete Warden Sandeep P. Chinchali Zain Asgar Sachin Katti 8 8 0 08 Nov 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 24 362 0 02 Nov 2021
Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming E2E ASR via Supernet Haichuan Yang Yuan Shangguan Dilin Wang Meng Li P. Chuang Xiaohui Zhang Ganesh Venkatesh Ozlem Kalinli Vikas Chandra 32 14 0 15 Oct 2021
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis Cheng-I Jeff Lai Erica Cooper Yang Zhang Shiyu Chang Kaizhi Qian ... Yung-Sung Chuang Alexander H. Liu Junichi Yamagishi David D. Cox James R. Glass 26 6 0 04 Oct 2021
4-bit Quantization of LSTM-based Speech Recognition Models A. Fasoli Chia-Yu Chen Mauricio Serrano Xiao Sun Naigang Wang ... Xiaodong Cui Brian Kingsbury Wei Zhang Zoltán Tüske K. Gopalakrishnan MQ 21 21 0 27 Aug 2021
Automatic Speech Recognition And Limited Vocabulary: A Survey J. L. E. K. Fendji D. Tala B. Yenke M. Atemkeng 13 3 0 23 Aug 2021
Bifocal Neural ASR: Exploiting Keyword Spotting for Inference Optimization J. Macoskey Grant P. Strimel Ariya Rastrow 16 19 0 03 Aug 2021
Amortized Neural Networks for Low-Latency Speech Recognition J. Macoskey Grant P. Strimel Jinru Su Ariya Rastrow 9 18 0 03 Aug 2021
MOHAQ: Multi-Objective Hardware-Aware Quantization of Recurrent Neural Networks Nesma M. Rezk Tomas Nordstrom D. Stathis Z. Ul-Abdin E. Aksoy A. Hemani MQ 20 1 0 02 Aug 2021
Noisy Training Improves E2E ASR for the Edge Dilin Wang Yuan Shangguan Haichuan Yang P. Chuang Jiatong Zhou Meng Li Ganesh Venkatesh Ozlem Kalinli Vikas Chandra 14 4 0 09 Jul 2021
Multi-user VoiceFilter-Lite via Attentive Speaker Embedding R. Rikhye Quan Wang Qiao Liang Yanzhang He Ian McGraw 21 8 0 02 Jul 2021
CoDERT: Distilling Encoder Representations with Co-learning for Transducer-based Speech Recognition R. Swaminathan Brian King Grant P. Strimel J. Droppo Athanasios Mouchtaris 18 15 0 14 Jun 2021
PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition Cheng-I Jeff Lai Yang Zhang Alexander H. Liu Shiyu Chang Yi-Lun Liao Yung-Sung Chuang Kaizhi Qian Sameer Khurana David D. Cox James R. Glass VLM 49 70 0 10 Jun 2021
Personalized Keyphrase Detection using Speaker and Environment Information R. Rikhye Quan Wang Qiao Liang Yanzhang He Ding Zhao Yiteng Huang Huang A. Narayanan Ian McGraw 15 10 0 28 Apr 2021
Flexi-Transducer: Optimizing Latency, Accuracy and Compute forMulti-Domain On-Device Scenarios Jay Mahadeokar Yangyang Shi Yuan Shangguan Chunyang Wu Alex Xiao Hang Su Duc Le Ozlem Kalinli Christian Fuegen M. Seltzer 8 3 0 06 Apr 2021
Dissecting User-Perceived Latency of On-Device E2E Speech Recognition Yuan Shangguan Rohit Prabhavalkar Hang Su Jay Mahadeokar Yangyang Shi ... Chunyang Wu Duc Le Ozlem Kalinli Christian Fuegen M. Seltzer 20 27 0 06 Apr 2021
Dynamic Encoder Transducer: A Flexible Solution For Trading Off Accuracy For Latency Yangyang Shi Varun K. Nagaraja Chunyang Wu Jay Mahadeokar Duc Le ... Ching-Feng Yeh Julian Chan Christian Fuegen Ozlem Kalinli M. Seltzer 25 15 0 05 Apr 2021
When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute Tao Lei RALM VLM 51 47 0 24 Feb 2021
Memory-efficient Speech Recognition on Smart Devices Ganesh Venkatesh Alagappan Valliappan Jay Mahadeokar Shangguan Yuan Christian Fuegen M. Seltzer Vikas Chandra 9 11 0 23 Feb 2021
On the quantization of recurrent neural networks Jian Li R. Álvarez MQ 23 11 0 14 Jan 2021
Efficient CNN-LSTM based Image Captioning using Neural Network Compression Harshit Rampal Aman Mohanty VLM 11 3 0 17 Dec 2020
Efficient Knowledge Distillation for RNN-Transducer Models S. Panchapagesan Daniel S. Park Chung-Cheng Chiu Yuan Shangguan Qiao Liang A. Gruenstein 15 53 0 11 Nov 2020
Alignment Restricted Streaming Recurrent Neural Network Transducer Jay Mahadeokar Yuan Shangguan Duc Le Gil Keren Hang Su Thong Le Ching-Feng Yeh Christian Fuegen M. Seltzer AI4TS 17 63 0 05 Nov 2020
VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition Quan Wang Ignacio López Moreno Mert Saglam K. Wilson Alan Chiao ... Yanzhang He Wei Li Jason W. Pelecanos M. Nika A. Gruenstein VLM 28 82 0 09 Sep 2020
Version Control of Speaker Recognition Systems Quan Wang Ignacio López Moreno 16 9 0 23 Jul 2020
Analyzing the Quality and Stability of a Streaming End-to-End On-Device Speech Recognizer Yuan Shangguan Kate Knister Yanzhang He Ian McGraw F. Beaufays 6 12 0 02 Jun 2020
ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition Jing Pan Joshua Shapiro Jeremy Wohlwend Kyu Jeong Han Tao Lei T. Ma 11 22 0 21 May 2020
Dynamic Sparsity Neural Networks for Automatic Speech Recognition Zhaofeng Wu Ding Zhao Qiao Liang Jiahui Yu Anmol Gulati Ruoming Pang 22 39 0 16 May 2020
Structured Pruning of Large Language Models Ziheng Wang Jeremy Wohlwend Tao Lei 24 280 0 10 Oct 2019
Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights Aojun Zhou Anbang Yao Yiwen Guo Lin Xu Yurong Chen MQ 313 1,047 0 10 Feb 2017