Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2505.13032
Cited By

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

19 May 2025

Emmanouil Benetos

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix"

45 / 45 papers shown

HPSU: A Benchmark for Human-Level Perception in Real-World Spoken Speech Understanding

HPSU: A Benchmark for Human-Level Perception in Real-World Spoken Speech Understanding

154

0

0

28 Nov 2025

Cognitive Foundations for Reasoning and Their Manifestation in LLMs

Cognitive Foundations for Reasoning and Their Manifestation in LLMs

Priyanka Kargupta

Shuyue Stella Li

...

Thomas L. Griffiths

Max Kleiman-Weiner

Asli Celikyilmaz

207

2

0

20 Nov 2025

Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation

Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation

Wei-Cheng Tseng

161

0

0

20 Nov 2025

SAR-LM: Symbolic Audio Reasoning with Large Language Models

SAR-LM: Symbolic Audio Reasoning with Large Language Models

Emmanouil Benetos

207

0

0

09 Nov 2025

Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models

Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models

Shree Harsha Bokkahalli Satish

Joakim Gustafson

104

0

0

29 Oct 2025

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

...

478

4

0

28 Oct 2025

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

Brandon James Carone

Pablo Ripollés

164

1

0

25 Oct 2025

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

Prashanth Gurunath Shivakumar

147

1

0

23 Oct 2025

The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS

The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS

Brandon James Carone

Pablo Ripollés

157

3

0

21 Oct 2025

VocalBench-DF: A Benchmark for Evaluating Speech LLM Robustness to Disfluency

VocalBench-DF: A Benchmark for Evaluating Speech LLM Robustness to Disfluency

200

1

0

17 Oct 2025

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Chao-Han Huck Yang

...

Pavlo Molchanov

183

3

0

17 Oct 2025

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

...

90

2

0

14 Oct 2025

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents

143

2

0

13 Oct 2025

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

...

Shinji Watanabe

Mohammad Shoeybi

Bryan Catanzaro

290

1

0

13 Oct 2025

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs

...

189

3

0

08 Oct 2025

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

112

0

0

06 Oct 2025

Robustness assessment of large audio language models in multiple-choice evaluation

Robustness assessment of large audio language models in multiple-choice evaluation

Santosh Kesiraju

162

0

0

06 Oct 2025

AudioToolAgent: An Agentic Framework for Audio-Language Models

AudioToolAgent: An Agentic Framework for Audio-Language Models

129

0

0

03 Oct 2025

PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation

PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation

Aemon Yat Fei Chiu

...

149

1

0

01 Oct 2025

Hearing the Order: Investigating Selection Bias in Large Audio-Language Models

Hearing the Order: Investigating Selection Bias in Large Audio-Language Models

135

0

0

01 Oct 2025

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

151

2

0

01 Oct 2025

When Voice Matters: Evidence of Gender Disparity in Positional Bias of SpeechLLMs

When Voice Matters: Evidence of Gender Disparity in Positional Bias of SpeechLLMs

Shree Harsha Bokkahalli Satish

161

1

0

01 Oct 2025

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Jayakumar Subramanian

113

1

0

30 Sep 2025

Think Smart, Not Hard: Difficulty Adaptive Reasoning for Large Audio Language Models

Think Smart, Not Hard: Difficulty Adaptive Reasoning for Large Audio Language Models

315

0

0

26 Sep 2025

CMDAR: A Chinese Multi-scene Dynamic Audio Reasoning Benchmark with Diverse Challenges

CMDAR: A Chinese Multi-scene Dynamic Audio Reasoning Benchmark with Diverse Challenges

...

129

0

0

26 Sep 2025

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

118

0

0

26 Sep 2025

Investigating Faithfulness in Large Audio Language Models

Investigating Faithfulness in Large Audio Language Models

Mirco Ravanelli

165

0

0

26 Sep 2025

Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models

Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models

94

0

0

23 Sep 2025

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

AudioGenie-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

217

0

0

21 Sep 2025

Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

186

0

0

14 Sep 2025

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

123

3

0

05 Sep 2025

Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding

Bryan Catanzaro

178

3

0

15 Aug 2025

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

250

8

0

11 Aug 2025

SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models

SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models

149

6

0

04 Aug 2025

MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks

MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks

Heinrich Dinkel

227

3

0

31 Jul 2025

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

302

0

0

26 May 2025

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

Andrew Rouditchenko

Saurabhchand Bhati

334

23

0

14 May 2025

SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

Shuaijiang Zhao

OffRL AuLLM LRM

364

18

0

22 Apr 2025

Qwen2.5-Omni Technical Report

Qwen2.5-Omni Technical Report

...

1.2K

344

0

26 Mar 2025

Mellow: a small audio language model for reasoning

290

17

0

11 Mar 2025

Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models

Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models

AuLLM OffRL LRM

401

69

0

04 Mar 2025

Baichuan-Omni-1.5 Technical Report

Tao Zhang

...

328

66

0

28 Jan 2025

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

...

OffRL AI4TS LRM ReLM VLM

1.2K

5,498

0

22 Jan 2025

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

276

43

0

13 Jan 2025

AudioBench: A Universal Benchmark for Audio Large Language Models

AudioBench: A Universal Benchmark for Audio Large Language Models

AuLLM ELM LM&MA

585

79

0

23 Jun 2024