WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models

29 March 2022

Kaizhi Qian

Papers citing "WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models"

25 / 25 papers shown

Title
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 47 2 0 11 Apr 2025
M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper Jiaming Zhou S. Zhao Jiabei He Hui Wang Wenjia Zeng Yong Chen Haoqin Sun Aobo Kong Yong Qin 55 1 0 13 Mar 2025
Mamba-based Decoder-Only Approach with Bidirectional Speech Modeling for Speech Recognition Yoshiki Masuyama Koichi Miyazaki Masato Murata Mamba 37 0 0 11 Nov 2024
An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems Hitesh Tulsiani David M. Chan Shalini Ghosh Garima Lalwani Prabhat Pandey Ankish Bansal Sri Garimella Ariya Rastrow Björn Hoffmeister 26 0 0 16 Sep 2024
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks Kai-Wei Chang Haibin Wu Yu-Kai Wang Yuan-Kuei Wu Hua Shen Wei-Cheng Tseng Iu-thing Kang Shang-Wen Li Hung-yi Lee 39 3 0 23 Aug 2024
Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction Rithik Sachdev Zhong-Qiu Wang Chao-Han Huck Yang 26 3 0 23 Jul 2024
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper Chih-Kai Yang Kuan Po Huang Hung-yi Lee 40 3 0 09 Jun 2024
Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing? Marco Gaido Sara Papi Matteo Negri L. Bentivogli 41 12 0 19 Feb 2024
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro AuLLM LM&MA MLLM 59 73 0 02 Feb 2024
Large Language Models for Time Series: A Survey Xiyuan Zhang Ranak Roy Chowdhury Rajesh K. Gupta Jingbo Shang AI4TS 77 54 0 02 Feb 2024
UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions Siddhant Arora Hayato Futami Jee-weon Jung Yifan Peng Roshan S. Sharma Yosuke Kashiwagi E. Tsunoo Karen Livescu Shinji Watanabe ELM 19 7 0 04 Oct 2023
Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting Chao-Han Huck Yang Yile Gu Yi-Chieh Liu Shalini Ghosh I. Bulyko A. Stolcke KELM LRM 25 40 0 27 Sep 2023
Joint Audio and Speech Understanding Yuan Gong Alexander H. Liu Hongyin Luo Leonid Karlinsky James R. Glass AuLLM 26 66 0 25 Sep 2023
Instruction-Following Speech Recognition Cheng-I Jeff Lai Zhiyun Lu Liangliang Cao Ruoming Pang AuLLM 19 6 0 18 Sep 2023
CPPF: A contextual and post-processing-free model for automatic speech recognition Lei Zhang Zhengkun Tian Xiang Chen Jiaming Sun Hongyu Xiang Ke Ding Guanglu Wan 13 0 0 14 Sep 2023
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts Haibin Wu Kai-Wei Chang Yuan-Kuei Wu Hung-yi Lee 19 22 0 03 Jun 2023
Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding Mutian He Philip N. Garner ELM AI4MH LRM 46 21 0 22 May 2023
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization Puyuan Peng Brian Yan Shinji Watanabe David F. Harwath VLM LRM 30 46 0 18 May 2023
Listen, Think, and Understand Yuan Gong Hongyin Luo Alexander H. Liu Leonid Karlinsky James R. Glass ELM MLLM LRM 29 136 0 18 May 2023
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation Mutian He Philip N. Garner 33 4 0 16 May 2023
Masked Audio Text Encoders are Effective Multi-Modal Rescorers Jason (Jinglun) Cai Monica Sunkara Xilai Li Anshu Bhatia Xiao Pan S. Bodapati 26 3 0 11 May 2023
SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks Kai-Wei Chang Yu-Kai Wang Hua Shen Iu-thing Kang Wei-Cheng Tseng Shang-Wen Li Hung-yi Lee VLM 11 44 0 01 Mar 2023
Bidirectional Representations for Low Resource Spoken Language Understanding Quentin Meeus Marie-Francine Moens Hugo Van hamme 11 2 0 24 Nov 2022
Integrated Parameter-Efficient Tuning for General-Purpose Audio Models Ju-ho Kim Ju-Sung Heo Hyun-Seo Shin Chanmann Lim Ha-Jin Yu 13 5 0 04 Nov 2022
Pre-trained Models for Natural Language Processing: A Survey Xipeng Qiu Tianxiang Sun Yige Xu Yunfan Shao Ning Dai Xuanjing Huang LM&MA VLM 241 1,450 0 18 Mar 2020