End-to-End Speech Recognition Contextualization with Large Language
Models

End-to-End Speech Recognition Contextualization with Large Language Models

19 September 2023

Yassir Fathullah

Ozlem Kalinli

Christian Fuegen

Papers citing "End-to-End Speech Recognition Contextualization with Large Language Models"

14 / 14 papers shown

Title
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation Zhaoxi Mu Xinyu Yang Gang Wang AuLLM KELM VLM 53 0 0 06 May 2025
FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration Kai-Tuo Xu Feng-Long Xie Xu Tang Yao Hu 59 4 0 24 Jan 2025
Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval Nikolaos Flemotomos Roger Hsiao P. Swietojanski Takaaki Hori Dogan Can Xiaodan Zhuang 37 0 0 01 Nov 2024
Efficient Streaming LLM for Speech Recognition J. Jia Gil Keren Wei Zhou Egor Lakomkin Xiaohui Zhang Chunyang Wu Frank Seide Jay Mahadeokar Ozlem Kalinli AuLLM 22 0 0 02 Oct 2024
Chain-of-Thought Prompting for Speech Translation Ke Hu Zhehuai Chen Chao-Han Huck Yang Piotr Żelasko Oleksii Hrinchuk Vitaly Lavrukhin Jagadeesh Balam Boris Ginsburg LRM 29 2 0 17 Sep 2024
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation Shaojun Li Hengchao Shang Daimeng Wei Jiaxin Guo Zongyao Li Xianghui He Min Zhang Hao Yang 24 2 0 13 Sep 2024
Contextualization of ASR with LLM using phonetic retrieval-based augmentation Zhihong Lei Xingyu Na Mingbin Xu Ernest Pusateri Christophe Van Gysel Yuanyuan Zhang Shiyi Han Zhen Huang 20 2 0 11 Sep 2024
Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words Kento Nozawa Takashi Masuko Toru Taniguchi 35 1 0 15 Aug 2024
Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation Ruizhe Huang M. Yarmohammadi Sanjeev Khudanpur Dan Povey 26 2 0 14 Jul 2024
Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions M. Baskar Andrew Rosenberg Bhuvana Ramabhadran Neeraj Gaur Zhong Meng 26 3 0 20 Jun 2024
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding Suwon Shon Kwangyoun Kim Yi-Te Hsu Prashant Sridhar Shinji Watanabe Karen Livescu AuLLM 39 2 0 13 Jun 2024
MaLa-ASR: Multimedia-Assisted LLM-Based ASR Guanrou Yang Ziyang Ma Fan Yu Zhifu Gao Shiliang Zhang Xie Chen AuLLM 33 2 0 09 Jun 2024
Large Language Models for Time Series: A Survey Xiyuan Zhang Ranak Roy Chowdhury Rajesh K. Gupta Jingbo Shang AI4TS 77 53 0 02 Feb 2024
COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning Jing Pan Jian Wu Yashesh Gaur S. Sivasankaran Zhuo Chen Shujie Liu Jinyu Li ELM 22 25 0 03 Nov 2023