SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation

SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation

17 May 2025

ArXiv (abs)PDF HTML

Papers citing "SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation"

9 / 9 papers shown

Title
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zhiyong Yang Aoxiong Yin Ruibin Yuan Yanzhe Zhang Zaida Zhou AuLLM VLM 185 13 0 25 Apr 2025
Qwen2.5-Omni Technical Report Jin Xu Zhifang Guo Jinzheng He Hangrui Hu Ting He ... K. Dang Bin Zhang Xinyu Wang Yunfei Chu Junyang Lin VGen AuLLM 164 55 0 26 Mar 2025
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction Tianpeng Li Qingbin Liu Tao Zhang Yuanbo Fang Zheng Liang ... Bin Cui Jianhua Xu Haoze Sun Guosheng Dong Xin Wu AuLLM 119 7 0 24 Feb 2025
Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction Ailin Huang Boyong Wu Bruce Wang Chao Yan Chen Hu ... Tianyu Wang Wenjin Deng Wuxun Xie Weipeng Ming Wenqing He AuLLM 128 17 0 17 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 395 2,031 0 22 Jan 2025
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction Qian Chen Yafeng Chen Yanni Chen Mengzhe Chen Yuxiao Chen ... Shiliang Zhang Nan Zhao Pei Zhang Chuxu Zhang Jinren Zhou AuLLM MLLM 112 24 0 10 Jan 2025
Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning Chirag Nagpal Subhashini Venugopalan Jimmy Tobin Marilyn A. Ladewig Katherine Heller Katrin Tomanek 66 0 0 03 Jan 2025
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation Qinglin Zhang Luyao Cheng Chong Deng Qian Chen Wen Wang ... Jiaqing Liu Hai Yu Chaohong Tan Zhihao Du Shiliang Zhang SyDa BDL AuLLM VLM 143 20 0 23 Oct 2024
MT2KD: Towards A General-Purpose Encoder for Speech, Speaker, and Audio Events Xiaoyu Yang Qiujia Li Chao Zhang P. Woodland 132 1 0 25 Sep 2024