Cold Fusion: Training Seq2Seq Models Together with Language Models

21 August 2017

Papers citing "Cold Fusion: Training Seq2Seq Models Together with Language Models"

50 / 63 papers shown

Title
WhiSPA: Semantically and Psychologically Aligned Whisper with Self-Supervised Contrastive and Student-Teacher Learning Rajath Rao Adithya V Ganesan O. Kjell Jonah Luby Akshay Raghavan ... B. Luft Camilo Ruggero Neville Ryant R. Kotov H. Andrew Schwartz 37 0 0 15 Jan 2025
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition Zijin Gu Tatiana Likhomanenko Richard He Bai Erik McDermott R. Collobert Navdeep Jaitly AuLLM 58 2 0 24 May 2024
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Ensiong Chng Chao-Han Huck Yang 36 19 0 08 Feb 2024
Large-scale Language Model Rescoring on Long-form Data Tongzhou Chen Cyril Allauzen Yinghui Huang Daniel S. Park David Rybach ... Rodrigo Cabrera Kartik Audhkhasi Bhuvana Ramabhadran Pedro J. Moreno Michael Riley 38 14 0 13 Jun 2023
Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer Lu Huang Yangqiu Song Jun Zhang Lu Lu Zejun Ma 36 2 0 07 Jun 2023
External Language Model Integration for Factorized Neural Transducers Michael Levit S. Parthasarathy Cem Aksoylar Mohammad Sadegh Rasooli Shuangyu Chang 29 2 0 26 May 2023
CopyNE: Better Contextual ASR by Copying Named Entities Shilin Zhou Zhenghua Li Yu Hong Hao Fei Zhefeng Wang Baoxing Huai 15 6 0 22 May 2023
A Deliberation-based Joint Acoustic and Text Decoder S. Mavandadi Tara N. Sainath Ke Hu Zelin Wu 21 7 0 23 Mar 2023
An Overview on Language Models: Recent Developments and Outlook Chengwei Wei Yun Cheng Wang Bin Wang C.-C. Jay Kuo 33 42 0 10 Mar 2023
Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation Rao Ma Xiaobo Wu Jin Qiu Yanan Qin Haihua Xu Peihao Wu Zejun Ma 32 2 0 02 Nov 2022
Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition Suyoun Kim Ke Li Lucas Kabela Rongqing Huang Jiedan Zhu Ozlem Kalinli Duc Le 27 8 0 31 Oct 2022
Training Autoregressive Speech Recognition Models with Limited in-domain Supervision Chak-Fai Li Francis Keith William Hartmann M. Snover 19 0 0 27 Oct 2022
Relaxed Attention for Transformer Models Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt KELM 29 11 0 20 Sep 2022
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems Jesús Andrés-Ferrer Dario Albesano P. Zhan Paul Vozila 16 6 0 29 Jun 2022
Improving Rare Word Recognition with LM-aware MWER Training Weiran Wang Tongzhou Chen Tara N. Sainath Ehsan Variani Rohit Prabhavalkar ... S. Mavandadi Cal Peyser Trevor Strohman Yanzhang He David Rybach KELM 40 13 0 15 Apr 2022
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 34 2 0 05 Apr 2022
Reducing language context confusion for end-to-end code-switching automatic speech recognition Shuai Zhang Jiangyan Yi Zhengkun Tian J. Tao Y. Yeung Liqun Deng 27 11 0 28 Jan 2022
Neural-FST Class Language Model for End-to-End Speech Recognition A. Bruguier Duc Le Rohit Prabhavalkar Dangna Li Zhe Liu Bo Wang Eun Chang Fuchun Peng Ozlem Kalinli M. Seltzer 20 6 0 28 Jan 2022
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model Jinchuan Tian Jianwei Yu Chao Weng Yuexian Zou Dong Yu 31 10 0 06 Jan 2022
Context-Aware Transformer Transducer for Speech Recognition Feng-Ju Chang Jing Liu Martin H. Radfar Athanasios Mouchtaris M. Omologo Ariya Rastrow Siegfried Kunzmann 21 79 0 05 Nov 2021
Infusing Future Information into Monotonic Attention Through Language Models Mohd Abbas Zaidi S. Indurthi Beomseok Lee Nikhil Kumar Lakumarapu Sangha Kim 27 2 0 07 Sep 2021
Injecting Text in Self-Supervised Speech Pretraining Zhehuai Chen Yu Zhang Andrew Rosenberg Bhuvana Ramabhadran Gary Wang Pedro J. Moreno SSL 25 36 0 27 Aug 2021
Regularizing Transformers With Deep Probabilistic Layers Aurora Cobo Aguilera Pablo Martínez Olmos Antonio Artés-Rodríguez Fernando Pérez-Cruz 41 7 0 23 Aug 2021
On-Device Personalization of Automatic Speech Recognition Models for Disordered Speech Katrin Tomanek Franccoise Beaufays Julie Cattiau Angad Chandorkar K. Sim 21 15 0 18 Jun 2021
Adapting Long Context NLM for ASR Rescoring in Conversational Agents Ashish Shenoy S. Bodapati Monica Sunkara S. Ronanki Katrin Kirchhoff 29 21 0 21 Apr 2021
Domain Adaptation and Multi-Domain Adaptation for Neural Machine Translation: A Survey Danielle Saunders AI4CE 27 85 0 14 Apr 2021
Contextualized Streaming End-to-End Speech Recognition with Trie-Based Deep Biasing and Shallow Fusion Duc Le Mahaveer Jain Gil Keren Suyoun Kim Yangyang Shi ... Yuan Shangguan Christian Fuegen Ozlem Kalinli Yatharth Saraf M. Seltzer 27 90 0 05 Apr 2021
Transformer Language Models with LSTM-based Cross-utterance Information Representation G. Sun C. Zhang P. Woodland 76 32 0 12 Feb 2021
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition Cheng Yi Shiyu Zhou Bo Xu 51 40 0 17 Jan 2021
Code Generation from Natural Language with Less Prior and More Monolingual Data Sajad Norouzi Keyi Tang Yanshuai Cao 17 19 0 01 Jan 2021
A review of on-device fully neural end-to-end automatic speech recognition algorithms Chanwoo Kim Dhananjaya N. Gowda Dongsoo Lee Jiyeon Kim Ankur Kumar Sungsoo Kim Abhinav Garg C. Han 27 27 0 14 Dec 2020
High Quality Real-Time Structured Debate Generation E. Bolton Alex Calderwood Niles Christensen Jerome Kafrouni Iddo Drori 6 3 0 01 Dec 2020
Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion Vijay Ravi Yile Gu Ankur Gandhe Ariya Rastrow Linda Liu Denis Filimonov Scott Novotney I. Bulyko 27 9 0 30 Nov 2020
Deep Shallow Fusion for RNN-T Personalization Duc Le Gil Keren Julian Chan Jay Mahadeokar Christian Fuegen M. Seltzer 21 77 0 16 Nov 2020
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition Zhong Meng S. Parthasarathy Eric Sun Yashesh Gaur Naoyuki Kanda Liang Lu Xie Chen Rui Zhao Jinyu Li Jiawei Liu AuLLM 19 107 0 03 Nov 2020
Memory Attentive Fusion: External Language Model Integration for Transformer-based Sequence-to-Sequence Model Mana Ihori Ryo Masumura Naoki Makishima Tomohiro Tanaka Akihiko Takashima Shota Orihashi KELM 11 1 0 29 Oct 2020
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer Suyoun Kim Shangguan Yuan Jay Mahadeokar A. Bruguier Christian Fuegen M. Seltzer Duc Le 15 28 0 26 Oct 2020
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks Yun Tang J. Pino Changhan Wang Xutai Ma Dmitriy Genzel 26 73 0 21 Oct 2020
Cue Me In: Content-Inducing Approaches to Interactive Story Generation Faeze Brahman Alexandru Petrusca Snigdha Chaturvedi LRM 24 20 0 20 Oct 2020
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus Cal Peyser S. Mavandadi Tara N. Sainath J. Apfel Ruoming Pang Shankar Kumar 29 46 0 24 Aug 2020
Distilling the Knowledge of BERT for Sequence-to-Sequence ASR Hayato Futami Hirofumi Inaguma Sei Ueno Masato Mimura S. Sakai Tatsuya Kawahara 24 50 0 09 Aug 2020
Modular End-to-end Automatic Speech Recognition Framework for Acoustic-to-word Model Qi Liu Zhehuai Chen Hao Li Mingkun Huang Yizhou Lu Kai Yu 24 6 0 31 Jul 2020
Early Stage LM Integration Using Local and Global Log-Linear Combination Wilfried Michel Ralf Schluter Hermann Ney 11 11 0 20 May 2020
Multi-Domain Dialogue Acts and Response Co-Generation Kai Wang Junfeng Tian Rui-cang Wang Xiaojun Quan Jianxing Yu 6 58 0 26 Apr 2020
Hybrid Autoregressive Transducer (hat) Ehsan Variani David Rybach Cyril Allauzen Michael Riley 21 158 0 12 Mar 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 37 271 0 26 Feb 2020
A Density Ratio Approach to Language Model Fusion in End-To-End Automatic Speech Recognition Erik McDermott Hasim Sak Ehsan Variani 22 112 0 26 Feb 2020
End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky R. Collobert SSL AI4TS 36 246 0 19 Nov 2019
Do Massively Pretrained Language Models Make Better Storytellers? A. See Aneesh S. Pappu Rohun Saxena Akhila Yerukola Christopher D. Manning 45 166 0 24 Sep 2019