v1v2 (latest)

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

14 November 2023

Yunfei Chu

Jin Xu

Xiaohuan Zhou

Qian Yang

Shiliang Zhang

Zhijie Yan

Chang Zhou

Jingren Zhou

AuLLM

ArXiv (abs)PDF HTML HuggingFace (10 upvotes)

Papers citing "Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models"

50 / 277 papers shown

Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data

Nattadaporn Lertcheva

172

20 Sep 2025

VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

Dimitrios Damianos

Leon Voukoutis

Georgios Paraskevopoulos

Vassilis Katsouros

100

19 Sep 2025

Direct Simultaneous Translation Activation for Large Audio-Language Models

102

19 Sep 2025

Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations

160

19 Sep 2025

Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech Data

119

18 Sep 2025

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

18 Sep 2025

GraphMend: Code Transformations for Fixing Graph Breaks in PyTorch 2

Savini Kashmira

Jayanaka L. Dantanarayana

Thamirawaran Sathiyalogeswaran

125

17 Sep 2025

Preservation of Language Understanding Capabilities in Speech-aware Large Language Models

Marek Kubis

Paweł Skórzewski

Iwona Christop

Mateusz Czyżnikiewicz

190

15 Sep 2025

WeaveMuse: An Open Agentic System for Multimodal Music Understanding and Generation

Emmanouil Karystinaios

126

14 Sep 2025

ENJ: Optimizing Noise with Genetic Algorithms to Jailbreak LSMs

Yibo Zhang

Guanbin Li

AAML

14 Sep 2025

Improving Audio Event Recognition with Consistency Regularization

Shanmuka Sadhu

Weiran Wang

115

12 Sep 2025

Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data

149

09 Sep 2025

FireRedChat: A Pluggable, Full-Duplex Voice Interaction System with Cascaded and Semi-Cascaded Implementations

...

203

08 Sep 2025

GRAM-R

^2

: Self-Training Generative Foundation Reward Models for Reward Reasoning

...

329

02 Sep 2025

FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

194

02 Sep 2025

The AudioMOS Challenge 2025

100

01 Sep 2025

Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts

103

01 Sep 2025

SpeechLLM: Unified Speech and Language Model for Enhanced Multi-Task Understanding in Low Resource Settings

150

29 Aug 2025

WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations

120

28 Aug 2025

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio

187

28 Aug 2025

MQAD: A Large-Scale Question Answering Dataset for Training Music Large Language ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

167

27 Aug 2025

DESAMO: A Device for Elder-Friendly Smart Homes Powered by Embedded LLM with Audio Modality

26 Aug 2025

Empathy Omni: Enabling Empathetic Speech Response Generation through Large Language Models

203

26 Aug 2025

Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database

Qing Xiao

Yingshan Peng

PeiPei Zhang

26 Aug 2025

Attention2Probability: Attention-Driven Terminology Probability Estimation for Robust Speech-to-Text System

26 Aug 2025

Enhancing Speech Large Language Models through Reinforced Behavior Alignment

Yansong Liu

Jiateng Li

Yuan Liu

159

25 Aug 2025

Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs

136

25 Aug 2025

When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models

152

21 Aug 2025

Beyond Transcription: Mechanistic Interpretability in ASR

21 Aug 2025

EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition

Hugo Thimonier

Antony Perzo

Renaud Seguier

145

19 Aug 2025

MATPAC++: Enhanced Masked Latent Prediction for Self-Supervised Audio Representation Learning

161

18 Aug 2025

Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

178

15 Aug 2025

Transsion Multilingual Speech Recognition System for MLC-SLM 2025 Challenge

115

15 Aug 2025

HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMsEuropean Workshop on Visual Information Processing (EUVIP), 2025

219

14 Aug 2025

$$\text{M}^3\text{PDB}$: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation$

\text{M}^3\text{PDB}

: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation

118

13 Aug 2025

Describe What You See with Multimodal Large Language Models to Enhance Video RecommendationsACM Conference on Recommender Systems (RecSys), 2025

108

13 Aug 2025

Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling

Ju-Chieh Chou

Jiawei Zhou

Karen Livescu

235

12 Aug 2025

DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling with Large Language Models

169

12 Aug 2025

Dual Information Speech Language Models for Emotional Conversations

11 Aug 2025

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

250

11 Aug 2025

Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models

102

10 Aug 2025

Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages

Seraphina Fong

M. Matassoni

Alessio Brutti

178

07 Aug 2025

A Scalable Pipeline for Enabling Non-Verbal Speech Generation and Understanding

243

07 Aug 2025

Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning

101

06 Aug 2025

MiDashengLM: Efficient Audio Understanding with General Audio Captions

425

06 Aug 2025

Efficient Scaling for LLM-based ASR

194

06 Aug 2025

NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

122

06 Aug 2025

Enhancing Dialogue Annotation with Speaker Characteristics Leveraging a Frozen LLM

114

06 Aug 2025

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

172

05 Aug 2025

Multimodal Large Language Models for End-to-End Affective Computing: Benchmarking and Boosting with Generative Knowledge Prompting

206

04 Aug 2025