Audio Large Language Models

AuLLM

Exploring the development and application of large language models specifically tailored for audio data processing and understanding.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 1,018 papers shown

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation Ruohan Liu Shukang Yin Tao Wang Dong Zhang Weiji Zhuang Shuhuai Ren Ran He Caifeng Shan Chaoyou Fu AuLLM ELM 3 0 0 22 Apr 2026
ATIR: Towards Audio-Text Interleaved Contextual Retrieval Tong Zhao Chenghao Zhang Yutao Zhu Zhicheng Dou AuLLM 0 0 0 22 Apr 2026
HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models Feiyu Zhao Yiming Chen Wenhuan Lu Daipeng Zhang Xianghu Yue Jianguo Wei AuLLM HILM LM&MA ELM VLM 11 0 0 21 Apr 2026
UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction Yadong Li Guoxin Wu Haiping Hou Biye Li AuLLM 1 0 0 21 Apr 2026
Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval HaeJun Yoo Yongseop Shin Insung Lee Myoung-Wan Koo Du-Seong Chang AuLLM VLM 5 0 0 20 Apr 2026
Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models Xiang He Chenxing Li Jinting Wang Yan Rong Tianxin Xie Wenfu Wang Li Liu Dong Yu AuLLM OffRL ReLM LRM AI4CE 15 0 0 20 Apr 2026
FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs Yun Hong Yan Zhou Yang Feng AuLLM 2 0 0 20 Apr 2026
NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR Yuan Xie Jiaqi Song Guang Qiu Xianliang Wang Kai Qiao ... Yi Zhang Bowen Chen Ming Lei Jie Gao Jie Wu AuLLM KELM 11 0 0 20 Apr 2026
MINT-Bench: A Comprehensive Multilingual Benchmark for Instruction-Following Text-to-Speech Huakang Chen Jingbin Hu Liumeng Xue Qirui Zhan Wenhao Li ... Bengu Wu Pengyuan Xie Chuan Xie Qiang Zhang Lei Xie AuLLM ELM 9 0 0 20 Apr 2026
LLM-Codec: Neural Audio Codec Meets Language Model Objectives Ho-Lam Chung Yiming Chen Hung-yi Lee AuLLM 2 0 0 20 Apr 2026
Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions Dongwook Lee Eunwoo Song Che Hyun Lee Heeseung Kim Sungroh Yoon AuLLM 2 0 0 19 Apr 2026
VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech Yi-Cheng Lin Yusuke Hirota Sung-Feng Huang Hung-yi Lee AuLLM 2 0 0 19 Apr 2026
EmbodiedHead: Real-Time Listening and Speaking Avatar for Conversational Agents Yu Zhang Kaiyuan Shen Yang Li AuLLM 3 0 0 19 Apr 2026
TinyMU: A Compact Audio-Language Model for Music Understanding Xiquan Li Aurian Quelennec Slim Essid AuLLM 2 0 0 17 Apr 2026
Qwen3.5-Omni Technical Report Qwen Team AuLLM VGen VLM 31 0 0 17 Apr 2026
VoxMind: An End-to-End Agentic Spoken Dialogue System Tianle Liang Yifu Chen Shengpeng Ji Yijun Chen Zhiyang Jia Jingyu Lu Fan Zhuo Xueyi Pu Yangzhuo Li Zhou Zhao AuLLM LRM 9 0 0 17 Apr 2026
WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training Yifu Chen Shengpeng Ji Qian Chen Tianle Liang Yangzhuo Li ... Jingyu Lu Haoxiao Wang Xueyi Pu Fan Zhuo Zhou Zhao AuLLM 3 0 0 16 Apr 2026
Listen, Pause, and Reason: Toward Perception-Grounded Hybrid Reasoning for Audio Understanding Jieyi Wang Yazhe Niu Dexuan Xu Zhongyu Wei AuLLM LRM 16 0 0 16 Apr 2026
Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection Meng Chen Kun Wang Li Lu Jiaheng Zhang Tianwei Zhang AuLLM AAML 25 0 0 16 Apr 2026
Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models Yanda Li Yuhan Liu Zirui Song Yunchao Wei Martin Takáč Salem Lahlou AuLLM 2 0 0 16 Apr 2026
Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning Dongjie Fu Fangming Feng Xize Cheng Linjun Li Zhou Zhao Tao Jin AuLLM 6 0 0 15 Apr 2026
SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding Luoyi Sun Xiao Zhou Zeqian Li Ya Zhang Yanfeng Wang Weidi Xie AuLLM 37 0 0 14 Apr 2026
MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models Chung-Ming Chien Manu Orsini Eugene Kharitonov Neil Zeghidour Karen Livescu Alexandre Défossez AuLLM RALM VLM 63 0 0 14 Apr 2026
Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs Linhao Zhang Yuhan Song Aiwei Liu Chuhan Wu Sijun Zhang Wei Jia Yuan Liu Houfeng Wang Xiao Zhou AuLLM 12 0 0 14 Apr 2026
HumDial-EIBench: A Human-Recorded Multi-Turn Emotional Intelligence Benchmark for Audio Language Models Shuiyuan Wang Zhixian Zhao Hongfei Yue Chengyou Wang Shuai Wang Hui Bu Xin Xu Lei Xie AuLLM 11 0 0 13 Apr 2026
MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora Tao Feng Yuxiang Wang Yuancheng Wang Xueyao Zhang Dekun Chen Chaoren Wang Xun Guan Zhizheng Wu AuLLM 13 0 0 13 Apr 2026
Bridging What the Model Thinks and How It Speaks: Self-Aware Speech Language Models for Expressive Speech Generation Kuang Wang Lai Wei Qibing Bai Ping Lin Wenkai Fang Feng Jiang Zhongjie Jiang Jun Huang Yannan Wang Haizhou Li AuLLM 13 0 0 13 Apr 2026
Ti-Audio: The First Multi-Dialectal End-to-End Speech LLM for Tibetan Jialing Wang Yue Zhao Yuhao Zhang Jing Yu Shaosai Li Zhanchen Dai Benyou Wang Haizhou Li AuLLM 20 0 0 13 Apr 2026
Efficient Training for Cross-lingual Speech Language Models Yan Zhou Qingkai Fang Yun Hong Yang Feng AuLLM 14 0 0 13 Apr 2026
Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music Sreyan Ghosh Arushi Goel Kaousheik Jayakumar Lasha Koroshinadze Nishit Anand ... Dinesh Manocha Mohammad Shoeybi Bryan Catanzaro Ming-Yu Liu Wei Ping MLLM AuLLM LRM LM&MA ELM 44 0 0 13 Apr 2026
BlasBench: An Open Benchmark for Irish Speech Recognition Jyoutir Raj John Conway AuLLM ELM 33 0 0 12 Apr 2026
Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing Zeyue Tian Binxin Yang Zhaoyang Liu Jiexuan Zhang Ruibin Yuan ... Qifeng Chen Chen Li Jing Lv Wei Xue Yike Guo AuLLM VGen KELM SyDa 43 0 0 12 Apr 2026
Whisper-AuT: Domain-Adapted Audio Encoder for Efficient Audio-LLM Training Jielin Qiu Ming Zhu Wenting Zhao Zhiwei Liu Liangwei Yang ... Rithesh Murthy Shelby Heinecke Caiming Xiong Silvio Savarese Huan Wang AuLLM 13 0 0 12 Apr 2026
Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels Yuzhe Weng Haotian Wang Xinyi Yu Xiaoyan Wu Haoran Xu Shan He Jun Du AuLLM 13 0 0 11 Apr 2026
Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition Peng Wang Yanqiao Zhu Zixuan Jiang Qinyuan Chen Xingjian Zhao ... Wupeng Wang Zhifu Gao Xiangang Li Kai Yu Xie Chen AuLLM 31 0 0 10 Apr 2026
AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models Mintong Kang Chen Fang Bo Li AuLLM ELM 40 0 0 10 Apr 2026
Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs Yuan Xie Jiaqi Song Guang Qiu Xianliang Wang Ming Lei Jie Gao Jie Wu AuLLM 23 1 0 10 Apr 2026
AT-ADD: All-Type Audio Deepfake Detection Challenge Evaluation Plan Yuankun Xie Haonan Cheng Jiayi Zhou Xiaoxuan Guo Tao Wang ... Xiaopeng Wang Hengyan Huang Xiaoying Huang Long Ye Guangtao Zhai AuLLM ELM 46 0 0 10 Apr 2026
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering Yiduo Jia Muzhi Zhu Hao Zhong Mingyu Liu Yuling Xi Hao Chen Bin Qin Yongjie Yang Zhenbo Luo Chunhua Shen AuLLM LRM 51 0 0 10 Apr 2026
Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering Junyoung Koh Jaeyun Lee Soo Yong Kim Gyu Hyeong Choi Jung In Koh Jordan Phillips Yeonjin Lee Min Song AuLLM 13 0 0 08 Apr 2026
AudioKV: KV Cache Eviction in Efficient Large Audio Language Models Yuxuan Wang Peize He Xiyan Gui Xiaoqian Liu Junhao He Xuyang Liu Zichen Wen Xuming Hu Linfeng Zhang AuLLM VLM 33 0 0 08 Apr 2026
EchoChain: A Full-Duplex Benchmark for State-Update Reasoning Under Interruptions Smit Nautambhai Modi Gandharv Mahajan Marc Wetter Randall Welles AuLLM HILM ELM LRM 4 0 0 08 Apr 2026
Closing the Speech-Text Gap with Limited Audio for Effective Domain Adaptation in LLM-Based ASR Thibault Bañeras-Roux Sergio Burdisso Esaú Villatoro-Tello Dairazalia Sánchez-Cortés Shiran Liu ... Hasindri Watawana Manjunath K E Kadri Hacioglu Petr Motlicek Andreas Stolcke AuLLM 33 0 0 07 Apr 2026
Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency Guan-Ting Lin Chen Chen Zhehuai Chen Hung-yi Lee AuLLM ELM 28 0 0 06 Apr 2026
Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR Zhennan Lin Shuai Wang Zhaokai Sun Pengyuan Xie Chuan Xie Jie Liu Qiang Zhang Lei Xie BDL AuLLM LRM 31 0 0 03 Apr 2026
Woosh: A Sound Effects Foundation Model Gaëtan Hadjeres Marc Ferras Khaled Koutini Benno Weck Alexandre Bittar Thomas Hummel Zineb Lahrici Hakim Missoum Joan Serrà Yuki Mitsufuji AuLLM CLIP VLM 43 0 0 02 Apr 2026
Speech LLMs are Contextual Reasoning Transcribers Keqi Deng Ruchao Fan Bo Ren Yiming Wang Jinyu Li AuLLM LRM 48 0 0 01 Apr 2026
Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling Kazuki Yano Jun Suzuki Shinji Watanabe AuLLM AI4CE 26 0 0 01 Apr 2026
Omni-MMSI: Toward Identity-attributed Social Interaction Understanding Xinpeng Li Bolin Lai Hardy Chen Shijian Deng Cihang Xie Yuyin Zhou James Matthew Rehg Yapeng Tian AuLLM 33 0 0 31 Mar 2026
Audio Hallucination Attacks: Probing the Reliability of Large Audio Language Models Ashish Seth Sonal Kumar Ramaneswaran Selvakumar Nishit Anand Utkarsh Tyagi Prem Seetharaman Ramani Duraiswami Dinesh Manocha AuLLM AAML HILM 44 0 0 31 Mar 2026

Loading #Papers per Month with "AuLLM"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available