Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2503.20215
Cited By

Qwen2.5-Omni Technical Report

Qwen2.5-Omni Technical Report

26 March 2025

ArXiv (abs)PDF HTML HuggingFace (164 upvotes)

Papers citing "Qwen2.5-Omni Technical Report"

50 / 246 papers shown

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

Brandon James Carone

Pablo Ripollés

165

1

0

25 Oct 2025

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

Prashanth Gurunath Shivakumar

216

1

0

23 Oct 2025

Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment

Decoding the Ear: A Framework for Objectifying Expressiveness from Human Preference Through Efficient Alignment

133

0

0

23 Oct 2025

Data-Centric Lessons To Improve Speech-Language Pretraining

Data-Centric Lessons To Improve Speech-Language Pretraining

Vishaal Udandarao

Albin Madapally Jose

Chung-Cheng Chiu

146

0

0

22 Oct 2025

Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models

Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models

121

1

0

20 Oct 2025

Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

Yu-Hsuan Li Liang

...

Sung-Feng Huang

Chao-Han Huck Yang

144

0

0

19 Oct 2025

Hallucination Benchmark for Speech Foundation Models

Hallucination Benchmark for Speech Foundation Models

Alkis Koudounas

Moreno La Quatra

Sabato Marco Siniscalchi

299

1

0

18 Oct 2025

MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval

MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval

Satoshi Hayakawa

108

0

0

17 Oct 2025

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Chao-Han Huck Yang

...

Pavlo Molchanov

210

9

0

17 Oct 2025

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

106

0

0

16 Oct 2025

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation

AudioEval: Automatic Dual-Perspective and Multi-Dimensional Evaluation of Text-to-Audio-Generation

Yong Qin

182

2

0

16 Oct 2025

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

...

282

1

0

15 Oct 2025

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

...

MLLM AuLLM VGen VLM

446

7

0

15 Oct 2025

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

...

101

8

0

14 Oct 2025

A Survey on Agentic Multimodal Large Language Models

A Survey on Agentic Multimodal Large Language Models

...

LM&Ro AIFin AI4TS LRM AI4CE

268

9

0

13 Oct 2025

Scaling Language-Centric Omnimodal Representation Learning

Scaling Language-Centric Omnimodal Representation Learning

Mahani Aljunied

170

3

0

13 Oct 2025

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

...

Shinji Watanabe

Mohammad Shoeybi

Bryan Catanzaro

314

4

0

13 Oct 2025

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

...

Zhaoxiang Zhang

Jiaheng Liu

186

11

0

12 Oct 2025

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

...

272

8

0

12 Oct 2025

MatryoshkaThinking: Recursive Test-Time Scaling Enables Efficient Reasoning

MatryoshkaThinking: Recursive Test-Time Scaling Enables Efficient Reasoning

...

155

1

0

11 Oct 2025

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models

...

128

3

0

10 Oct 2025

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

Taojiannan Yang

Lincoln Spencer

Serena Yeung-Levy

140

3

0

09 Oct 2025

Kelp: A Streaming Safeguard for Large Models via Latent Dynamics-Guided Risk Detection

Kelp: A Streaming Safeguard for Large Models via Latent Dynamics-Guided Risk Detection

193

0

0

09 Oct 2025

CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching

CS3-Bench: Evaluating and Enhancing Speech-to-Speech LLMs for Mandarin-English Code-Switching

119

2

0

09 Oct 2025

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs

...

203

5

0

08 Oct 2025

Local MAP Sampling for Diffusion Models

Local MAP Sampling for Diffusion Models

163

2

0

07 Oct 2025

Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations

Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations

157

2

0

07 Oct 2025

Robustness assessment of large audio language models in multiple-choice evaluation

Robustness assessment of large audio language models in multiple-choice evaluation

Santosh Kesiraju

189

0

0

06 Oct 2025

Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing

Improving Multimodal Brain Encoding Model with Dynamic Subject-awareness Routing

201

1

0

06 Oct 2025

Human Behavior Atlas: Benchmarking Unified Psychological and Social Behavior Understanding

Human Behavior Atlas: Benchmarking Unified Psychological and Social Behavior Understanding

...

184

3

0

06 Oct 2025

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

296

4

0

03 Oct 2025

AudioToolAgent: An Agentic Framework for Audio-Language Models

AudioToolAgent: An Agentic Framework for Audio-Language Models

Jenia Jitsev

187

2

0

03 Oct 2025

Self-Improvement in Multimodal Large Language Models: A Survey

Self-Improvement in Multimodal Large Language Models: A Survey

158

3

0

03 Oct 2025

Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage

Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage

Sajal Choudhary

...

193

4

0

02 Oct 2025

Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems

Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems

Yosuke Kashiwagi

Shinji Watanabe

112

2

0

02 Oct 2025

From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling

From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling

...

116

2

0

01 Oct 2025

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models

167

2

0

01 Oct 2025

Hearing the Order: Investigating Position Bias in Large Audio-Language Models

Hearing the Order: Investigating Position Bias in Large Audio-Language Models

155

0

0

01 Oct 2025

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

297

7

0

30 Sep 2025

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Jayakumar Subramanian

125

3

0

30 Sep 2025

V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs

V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs

139

0

0

30 Sep 2025

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

178

3

0

29 Sep 2025

Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey

Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey

216

7

0

29 Sep 2025

FreeRet: MLLMs as Training-Free Retrievers

FreeRet: MLLMs as Training-Free Retrievers

201

2

0

29 Sep 2025

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning

...

177

7

0

29 Sep 2025

Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition

Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition

73

0

0

29 Sep 2025

Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis

Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis

103

0

0

28 Sep 2025

DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding

DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding

160

6

0

28 Sep 2025

Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems

Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems

...

116

2

0

28 Sep 2025

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

Mubashara Akhtar

Mrinmaya Sachan

151

0

0

28 Sep 2025

Page 2 of 5