Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition

28 June 2023

Papers citing "Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition"

34 / 34 papers shown

Title
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning Prabhat Pandey R. Swaminathan K V Vijay Girish Arunasish Sen Jian Xie Grant P. Strimel Andreas Schwarz 140 0 0 12 Apr 2025
Retrieval-Augmented Speech Recognition Approach for Domain Challenges Peng Shen Xugang Lu Hisashi Kawai RALM 60 0 0 24 Feb 2025
FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration Kai-Tuo Xu Feng-Long Xie Xu Tang Yao Hu 69 4 0 24 Jan 2025
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model Z. Ma Zhuo Chen Yue Wang Eng Siong Chng Xie Chen AuLLM LRM 64 9 0 13 Jan 2025
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration Sangmin Lee Woo-Jin Chung Hong-Goo Kang Hong-Goo Kang 80 0 0 19 Dec 2024
Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward Shashi Kumar Iuliia Thorbecke Sergio Burdisso Esaú Villatoro-Tello Marcelo Errecalde Kadri Hacioğlu Pradeep Rangappa P. Motlícek A. Ganapathiraju Andreas Stolcke 55 1 0 06 Nov 2024
Large Language Model Should Understand Pinyin for Chinese ASR Error Correction Yuang Li Xiaosong Qiao Xiaofeng Zhao Huan Zhao Wei Tang Min Zhang Hao Yang 43 1 0 20 Sep 2024
LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation Shaojun Li Hengchao Shang Daimeng Wei Jiaxin Guo Zongyao Li Xianghui He Min Zhang Hao Yang 40 2 0 13 Sep 2024
Contextualization of ASR with LLM using phonetic retrieval-based augmentation Zhihong Lei Xingyu Na Mingbin Xu Ernest Pusateri Christophe Van Gysel Yuanyuan Zhang Shiyi Han Zhen Huang 33 2 0 11 Sep 2024
WHISMA: A Speech-LLM to Perform Zero-shot Spoken Language Understanding Mohan Li Cong-Thanh Do Simon Keizer Youmna Farag Svetlana Stoyanchev R. Doddipatla 40 2 0 29 Aug 2024
Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions Jiwon Suh Injae Na Woohwan Jung 33 1 0 25 Jul 2024
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition Ye Bai Jingping Chen Jitong Chen Wei Chen Zhuo Chen ... Wanyi Zhang Yang Zhang Yawei Zhang Yijie Zheng Ming Zou AuLLM 49 19 0 05 Jul 2024
A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR Van Tung Pham Yist Y. Lin Tao Han Wei Li Jun Zhang Lu Lu Yuxuan Wang AuLLM 39 1 0 25 Jun 2024
Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models Ruchao Fan Natarajan Balaji Shankar Abeer Alwan 36 7 0 15 Jun 2024
Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition Chan-Jan Hsu Yi-Chang Chen Feng-Ting Liao Pei-Chen Ho Yu-Hsiang Wang Po-Chun Hsu Da-shan Shiu 31 2 0 23 May 2024
SpeechVerse: A Large-scale Generalizable Audio Language Model Nilaksh Das Saket Dingliwal S. Ronanki Rohit Paturi David Huang ... Monica Sunkara S. Srinivasan Kyu J. Han Katrin Kirchhoff Katrin Kirchhoff 41 37 0 14 May 2024
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training Pavel Denisov Ngoc Thang Vu 46 2 0 16 Apr 2024
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models Haitao Li Qingyao Ai Jia Chen Qian Dong Zhijing Wu Yiqun Liu Chong Chen Qi Tian AILaw 62 13 0 27 Mar 2024
When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression Detection Xiangyu Zhang Hexin Liu Kaishuai Xu Qiquan Zhang Daijiao Liu Beena Ahmed Julien Epps 23 7 0 17 Feb 2024
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity Ziyang Ma Guanrou Yang Yifan Yang Zhifu Gao Jiaming Wang ... Fan Yu Qian Chen Siqi Zheng Shiliang Zhang Xie Chen AuLLM 47 38 0 13 Feb 2024
Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study Yifan Jiang Cyril Allauzen Tongzhou Chen Kilol Gupta Ke Hu James Qin Yu Zhang Yongqiang Wang Shuo-yiin Chang Tara N. Sainath MoMe 32 10 0 23 Jan 2024
Using Large Language Model for End-to-End Chinese ASR and NER Yuang Li Jiawei Yu Min Zhang Mengxin Ren Yanqing Zhao Xiaofeng Zhao Miaomiao Ma Chang Su Hao Yang 34 7 0 21 Jan 2024
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition Yuchen Hu Chen Chen Chao-Han Huck Yang Ruizhe Li Chao Zhang Pin-Yu Chen Ensiong Chng 27 20 0 19 Jan 2024
LLMs for Test Input Generation for Semantic Caches Zafaryab Rasool Scott Barnett David Willie Stefanus Kurniawan Sherwin Balugo Srikanth Thudumu Mohamed Abdelrazek 25 1 0 16 Jan 2024
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang Yao Yao Aston Zhang Xiangru Tang Xinbei Ma ... Yiming Wang Mark B. Gerstein Rui Wang Gongshen Liu Hai Zhao LLMAG LM&Ro LRM 42 53 0 20 Nov 2023
Connecting Speech Encoder and Large Language Model for ASR Wenyi Yu Changli Tang Guangzhi Sun Xianzhao Chen T. Tan Wei Li Lu Lu Zejun Ma Chao Zhang AuLLM 15 64 0 25 Sep 2023
Corpus Synthesis for Zero-shot ASR domain Adaptation using Large Language Models Hsuan Su Ting-Yao Hu H. Koppula Raviteja Vemulapalli Jen-Hao Rick Chang Karren D. Yang G. Mantena Oncel Tuzel SyDa 44 1 0 18 Sep 2023
Improved Factorized Neural Transducer Model For text-only Domain Adaptation Xiaozhong Liu Jianwei Yu Xie Chen 31 1 0 18 Sep 2023
PromptASR for contextualized ASR with controllable style Xiaoyu Yang Wei Kang Zengwei Yao Yifan Yang Liyong Guo Fangjun Kuang Long Lin Daniel Povey 36 9 0 14 Sep 2023
Contextual Biasing of Named-Entities with Large Language Models Chuanneng Sun Zeeshan Ahmed Yingyi Ma Zhe Liu Lucas Kabela Yutong Pang Ozlem Kalinli KELM 25 7 0 01 Sep 2023
Sparks of Large Audio Models: A Survey and Outlook S. Latif Moazzam Shoukat Fahad Shamshad Muhammad Usama Yi Ren ... Wenwu Wang Xulong Zhang Roberto Togneri Erik Cambria Björn W. Schuller LM&MA AuLLM 33 38 0 24 Aug 2023
On decoder-only architecture for speech-to-text and large language model integration Jian Wu Yashesh Gaur Zhuo Chen Long Zhou Yilun Zhu ... Jinyu Li Shujie Liu Bo Ren Linquan Liu Yu-Huan Wu AuLLM 30 118 0 08 Jul 2023
Adapting Long Context NLM for ASR Rescoring in Conversational Agents Ashish Shenoy S. Bodapati Monica Sunkara S. Ronanki Katrin Kirchhoff 29 21 0 21 Apr 2021
Internal Language Model Training for Domain-Adaptive End-to-End Speech Recognition Zhong Meng Naoyuki Kanda Yashesh Gaur S. Parthasarathy Eric Sun Liang Lu Xie Chen Jinyu Li Jiawei Liu AuLLM 36 52 0 02 Feb 2021