v1v2 (latest)

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

14 November 2023

Yunfei Chu

Jin Xu

Xiaohuan Zhou

Qian Yang

Shiliang Zhang

Zhijie Yan

Chang Zhou

Jingren Zhou

AuLLM

ArXiv (abs)PDF HTML HuggingFace (10 upvotes)

Papers citing "Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models"

29 / 279 papers shown

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken DialogueSpoken Language Technology Workshop (SLT), 2024

391

07 Sep 2024

Advancing Multi-talker ASR Performance with Large Language ModelsSpoken Language Technology Workshop (SLT), 2024

Mohan Shi

Zengrui Jin

Yaoxun Xu

Yong Xu

Shi-Xiong Zhang

Kun Wei

Yiwen Shao

Chunlei Zhang

Dong Yu

226

30 Aug 2024

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language ModelingInternational Conference on Learning Representations (ICLR), 2024

...

Rongjie Huang

Yidi Jiang

Qian Chen

Zhou Zhao

VLM

411

125

29 Aug 2024

SONICS: Synthetic Or Not -- Identifying Counterfeit SongsInternational Conference on Learning Representations (ICLR), 2024

Md Awsafur Rahman

Zaber Ibn Abdul Hakim

Najibul Haque Sarker

Bishmoy Paul

S. Fattah

593

26 Aug 2024

Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model

188

21 Aug 2024

A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech RecognitionInterspeech (Interspeech), 2024

Long Ma

233

18 Aug 2024

Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language ModelsSpoken Language Technology Workshop (SLT), 2024

Yi-Cheng Lin

Wei-Chih Chen

Hung-yi Lee

224

14 Aug 2024

PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape MappingACM Multimedia (MM), 2024

Nathan Jacobs

247

13 Aug 2024

Computer Audition: From Task-Specific Machine Learning to Foundation Models

Andreas Triantafyllopoulos

417

22 Jul 2024

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

...

734

363

16 Jul 2024

Pronunciation Assessment with Multi-modal Large Language Models

270

12 Jul 2024

Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

Ye Bai

Jingping Chen

Jitong Chen

Wei Chen

Zhuo Chen

...

Yang Zhang

Yijie Zheng

385

05 Jul 2024

CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic ModelingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

...

191

25 Jun 2024

AudioBench: A Universal Benchmark for Audio Large Language Models

596

23 Jun 2024

Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning

Zebang Cheng

Zhi-Qi Cheng

Jun-Yan He

Yuxuan Zhou

Kai Wang

Yuxiang Lin

Zheng Lian

Xiaojiang Peng

Alexander G. Hauptmann

MLLM

261

128

17 Jun 2024

DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding

Shinji Watanabe

304

13 Jun 2024

Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models

Chun-Yi Kuan

Wei-Ping Huang

Hung-yi Lee

AuLLM

191

12 Jun 2024

ParaCLAP -- Towards a general language-audio model for computational paralinguistic tasks

Xin Jing

Andreas Triantafyllopoulos

Björn Schuller

153

11 Jun 2024

MaLa-ASR: Multimedia-Assisted LLM-Based ASR

Guanrou Yang

Ziyang Ma

Fan Yu

Zhifu Gao

Shiliang Zhang

Xie Chen

AuLLM

344

09 Jun 2024

Soundscape Captioning using Sound Affective Quality Network and Large Language Model

470

09 Jun 2024

SpeechVerse: A Large-scale Generalizable Audio Language Model

...

493

14 May 2024

WavLLM: Towards Robust and Adaptive Speech Large Language Model

Shujie Hu

...

230

108

31 Mar 2024

Domain Adaptation for Contrastive Audio-Language Models

Soham Deshmukh

Rita Singh

Bhiksha Raj

VLM

233

14 Feb 2024

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

Jin Xu

Yunfei Chu

...

Chang Zhou

Jingren Zhou

LM&MA AuLLM ALM

262

177

12 Feb 2024

Cacophony: An Improved Contrastive Audio-Text ModelIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2024

335

10 Feb 2024

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

523

165

02 Feb 2024

BAT: Learning to Reason about Spatial Sounds with Large Language Models

433

02 Feb 2024

MM-LLMs: Recent Advances in MultiModal Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

517

340

24 Jan 2024

LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT

Zhihao Du

Jiaming Wang

Qian Chen

Yunfei Chu

Zhifu Gao

...

Wen Wang

Siqi Zheng

Chang Zhou

Zhijie Yan

Shiliang Zhang

LLMAG VLM AuLLM LM&MA

456

103

07 Oct 2023