Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2506.21448
Cited By

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

v1v2v3 (latest)

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

26 June 2025

ArXiv (abs)PDF HTML HuggingFace (6 upvotes)Github (3487★)

Papers citing "ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing"

11 / 11 papers shown

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

169

0

0

02 Dec 2025

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

223

0

0

26 Nov 2025

3MDiT: Unified Tri-Modal Diffusion Transformer for Text-Driven Synchronized Audio-Video Generation

3MDiT: Unified Tri-Modal Diffusion Transformer for Text-Driven Synchronized Audio-Video Generation

Pilar Oplustil Gallegos

Ioannis Koutsoumpas

...

193

0

0

26 Nov 2025

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

...

204

0

0

11 Nov 2025

Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

156

1

0

24 Oct 2025

Beyond Grid-Locked Voxels: Neural Response Functions for Continuous Brain Encoding

Beyond Grid-Locked Voxels: Neural Response Functions for Continuous Brain Encoding

151

1

0

07 Oct 2025

SoundReactor: Frame-level Online Video-to-Audio Generation

SoundReactor: Frame-level Online Video-to-Audio Generation

Christian Simon

Takashi Shibuya

241

0

0

02 Oct 2025

StereoFoley: Object-Aware Stereo Audio Generation from Video

StereoFoley: Object-Aware Stereo Audio Generation from Video

Tornike Karchkhadze

Alessandro Toso

DiffM VGen AuLLM

248

1

0

22 Sep 2025

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

168

0

0

19 Sep 2025

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

85

16

0

23 Aug 2025

FoleySpace: Vision-Aligned Binaural Spatial Audio Generation

FoleySpace: Vision-Aligned Binaural Spatial Audio Generation

159

1

0

18 Aug 2025