Language Model Can Listen While Speaking

5 August 2024

Yakun Song

Zhuo Chen

Papers citing "Language Model Can Listen While Speaking"

27 / 27 papers shown

Title
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis Qingkai Fang Yan Zhou Shoutao Guo Shaolei Zhang Yang Feng AuLLM 56 1 0 05 May 2025
SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation Keqi Deng Wenxi Chen Xie Chen P. Woodland 43 0 0 22 Apr 2025
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 52 2 0 11 Apr 2025
Speculative End-Turn Detector for Efficient Speech Chatbot Assistant Hyunjong Ok Suho Yoo Jaeho Lee 34 0 0 30 Mar 2025
OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts Y. Wang Y. Wang Bo Chen Tong Wu Dongyan Zhao Zilong Zheng VLM MLLM 63 1 0 29 Mar 2025
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems Siddhant Arora Yifan Peng Jiatong Shi Jinchuan Tian William Chen ... Yosuke Kashiwagi E. Tsunoo Shuichiro Shimizu Vaibhav Srivastav Shinji Watanabe 42 0 0 11 Mar 2025
S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information Feng Jiang Zhiyu Lin Fan Bu Yuhao Du Benyou Wang H. Li AuLLM ELM 96 0 0 07 Mar 2025
Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics Siddhant Arora Zhiyun Lu Chung-Cheng Chiu Ruoming Pang Shinji Watanabe 43 2 0 03 Mar 2025
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders Weiqiao Shan Y. Li Yuhao Zhang Yingfeng Luo Chen Xu ... Y. Lu M. Zhang Hao Yang Tong Xiao Jingbo Zhu AuLLM 67 0 0 24 Feb 2025
FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems Borui Liao Yulong Xu Jiao Ou Kaiyuan Yang Weihua Jian Pengfei Wan Di Zhang AuLLM 62 0 0 20 Feb 2025
DuplexMamba: Enhancing Real-time Speech Conversations with Duplex and Streaming Capabilities Xiangyu Lu Wang Xu Haoyu Wang Hongyun Zhou Haiyan Zhao Conghui Zhu T. Zhao M. Yang Mamba AuLLM 63 0 0 16 Feb 2025
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions Pan Zhang Xiaoyi Dong Yuhang Cao Yuhang Zang Rui Qian ... X. Zhang K. Chen Yu Qiao D. Lin Jiaqi Wang KELM 84 12 0 12 Dec 2024
Continuous Speech Tokens Makes LLMs Robust Multi-Modality Learners Ze Yuan Yanqing Liu Shujie Liu Sheng Zhao AuLLM 74 1 0 06 Dec 2024
SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation Wenyi Yu Siyin Wang Xiaoyu Yang Xianzhao Chen Xiaohai Tian J. Zhang Guangzhi Sun Lu Lu Y. Wang Chao Zhang AuLLM 72 6 0 27 Nov 2024
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt Chih-Kai Yang Yu-Kuan Fu Chen An Li Yi-Cheng Lin Yu-Xiang Lin ... Ulin Sanga Xuanjun Chen Po-Chun Hsu Shu-Wen Yang Hung-yi Lee AuLLM 40 0 0 11 Nov 2024
Zero-Shot Text-to-Speech from Continuous Text Streams Trung D. Q. Dang David Aponte Dung Tran Tianyi Chen K. Koishida AuLLM VLM 32 3 0 01 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 59 14 0 01 Oct 2024
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions Kai Chen Yunhao Gou Runhui Huang Zhili Liu Daxin Tan ... Qun Liu Jun Yao Lu Hou Hang Xu Hang Xu AuLLM MLLM VLM 72 21 0 26 Sep 2024
Enabling Real-Time Conversations with Minimal Training Costs Wang Xu Shuo Wang Weilin Zhao Xu Han Yukun Yan Yudi Zhang Zhe Tao Zhiyuan Liu Wanxiang Che 19 4 0 18 Sep 2024
Salmon: A Suite for Acoustic Language Model Evaluation Gallil Maimon Amit Roth Yossi Adi ELM AuLLM 49 5 0 11 Sep 2024
LLaMA-Omni: Seamless Speech Interaction with Large Language Models Qingkai Fang Shoutao Guo Yan Zhou Zhengrui Ma Shaolei Zhang Yang Feng AuLLM 25 30 0 10 Sep 2024
VITA: Towards Open-Source Interactive Omni Multimodal LLM Chaoyou Fu Haojia Lin Zuwei Long Yunhang Shen Meng Zhao ... Ran He Rongrong Ji Yunsheng Wu Caifeng Shan Xing Sun MLLM 39 80 0 09 Aug 2024
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models Xinrong Zhang Yingfa Chen Shengding Hu Xu Han Zihang Xu Yuanwei Xu Weilin Zhao Maosong Sun Zhiyuan Liu 32 9 0 22 Jun 2024
A Full-duplex Speech Dialogue Scheme Based On Large Language Models Peng Wang Songshuo Lu Yaohua Tang Sijie Yan Yuanjun Xiong Wei Xia AuLLM 31 10 0 29 May 2024
Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue Systems Ting-En Lin Yuchuan Wu Feiling Huang Luo Si Jian Sun Yongbin Li 49 22 0 30 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 311 11,915 0 04 Mar 2022
Generative Spoken Language Modeling from Raw Audio Kushal Lakhotia Evgeny Kharitonov Wei-Ning Hsu Yossi Adi Adam Polyak ... Tu Nguyen Jade Copet Alexei Baevski A. Mohamed Emmanuel Dupoux AuLLM 180 336 0 01 Feb 2021