v1v2 (latest)

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

14 November 2023

Yunfei Chu

Jin Xu

Xiaohuan Zhou

Qian Yang

Shiliang Zhang

Zhijie Yan

Chang Zhou

Jingren Zhou

AuLLM

ArXiv (abs)PDF HTML HuggingFace (10 upvotes)

Papers citing "Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models"

50 / 277 papers shown

Multimodal Large Language Models for End-to-End Affective Computing: Benchmarking and Boosting with Generative Knowledge Prompting

206

04 Aug 2025

From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs

208

03 Aug 2025

EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart GlassesIEEE Transactions on Visualization and Computer Graphics (TVCG), 2025

183

03 Aug 2025

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

212

02 Aug 2025

Multi-TW: Benchmarking Multimodal Models on Traditional Chinese Question Answering in Taiwan

02 Aug 2025

Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning

195

02 Aug 2025

TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models

136

01 Aug 2025

MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks

230

31 Jul 2025

Multimodal Video Emotion Recognition with Reliable Reasoning Priors

29 Jul 2025

Self-Improvement for Audio Large Language Model using Unlabeled Speech

164

27 Jul 2025

MLLM-based Speech Recognition: When and How is Multimodality Beneficial?

219

25 Jul 2025

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

289

25 Jul 2025

DIFFA: Large Language Diffusion Models Can Listen and Understand

...

214

24 Jul 2025

The TEA-ASLP System for Multilingual Conversational Speech Recognition and Speech Diarization in MLC-SLM 2025 Challenge

117

24 Jul 2025

TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios

...

205

24 Jul 2025

Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice

...

441

23 Jul 2025

Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge

162

23 Jul 2025

Step-Audio 2 Technical Report

...

298

22 Jul 2025

Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries

243

22 Jul 2025

SALM: Spatial Audio Language Model with Structured Embeddings for Understanding and Editing

170

22 Jul 2025

FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing

232

20 Jul 2025

The Man Behind the Sound: Demystifying Audio Private Attribute Profiling via Multimodal Large Language Model Agents

263

14 Jul 2025

OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model

...

177

07 Jul 2025

DeepOmni: Towards Seamless and Smart Speech Interaction with Adaptive Modality-Specific MoE

226

27 Jun 2025

Universal Music Representations? Evaluating Foundation Models on World Music Corpora

Charilaos Papaioannou

Emmanouil Benetos

Alexandros Potamianos

164

20 Jun 2025

Instituto de Telecomunicações at IWSLT 2025: Aligning Small-Scale Speech and Language Models for Speech-to-Text LearningInternational Workshop on Spoken Language Translation (IWSLT), 2025

190

20 Jun 2025

video-SALMONN 2: Caption-Enhanced Audio-Visual Large Language Models

391

18 Jun 2025

Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition

...

144

17 Jun 2025

GRAM: A Generative Foundation Reward Model for Reward Generalization

...

297

17 Jun 2025

Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR

249

16 Jun 2025

NTU Speechlab LLM-Based Multilingual ASR System for Interspeech MLC-SLM Challenge 2025

238

16 Jun 2025

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

253

14 Jun 2025

What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study

...

222

14 Jun 2025

AC/DC: LLM-based Audio Comprehension via Dialogue Continuation

292

12 Jun 2025

Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs

257

12 Jun 2025

OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary

182

11 Jun 2025

CoLMbo: Speaker Language Model for Descriptive Profiling

295

11 Jun 2025

mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks

Luel Hagos Beyene

Vivek Verma

Min Ma

Jesujoba Oluwadara Alabi

Fabian David Schmidt

Joyce Nakatumba-Nabende

David Ifeoluwa Adelani

336

10 Jun 2025

Teaching Physical Awareness to LLMs through Sounds

250

10 Jun 2025

SPBA: Utilizing Speech Large Language Model for Backdoor Attacks on Speech Classification Models

154

10 Jun 2025

Can Quantized Audio Language Models Perform Zero-Shot Spoofing Detection?

116

07 Jun 2025

Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs

...

235

07 Jun 2025

AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models

376

05 Jun 2025

LLM-based phoneme-to-grapheme for phoneme-based speech recognition

302

05 Jun 2025

GRAM: Spatial general-purpose audio representation models for real-world applications

Goksenin Yuksel

Marcel van Gerven

Kiki van der Heijden

300

01 Jun 2025

Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual ModalitiesVolume 1 (V1), 2025

141

31 May 2025

Leveraging LLM for Stuttering Speech: A Unified Architecture Bridging Recognition and Event Detection

186

28 May 2025

Weakly Supervised Data Refinement and Flexible Sequence Compression for Efficient Thai LLM-based ASR

181

28 May 2025

Assessment of L2 Oral Proficiency using Speech Large Language Models

247

27 May 2025

Plug-and-Play Co-Occurring Face Attention for Robust Audio-Visual Speaker Extraction

226

27 May 2025