Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2506.01725
Cited By

VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

2 June 2025

ArXiv (abs)PDF HTML

Papers citing "VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking"

9 / 9 papers shown

A Reason-then-Describe Instruction Interpreter for Controllable Video Generation

A Reason-then-Describe Instruction Interpreter for Controllable Video Generation

184

0

0

25 Nov 2025

VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection

VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection

158

1

0

24 Nov 2025

DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning

DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning

Prisha Priyadarshini

Adrian Maliackel

149

0

0

27 Oct 2025

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

...

252

2

0

12 Oct 2025

OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward

OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward

173

2

0

26 Aug 2025

Empowering Multimodal LLMs with External Tools: A Comprehensive Survey

Empowering Multimodal LLMs with External Tools: A Comprehensive Survey

181

1

0

14 Aug 2025

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video

Yogesh Kulkarni

280

4

0

05 Aug 2025

UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

210

2

0

15 Jul 2025

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

Md. Mohaiminul Islam

Gedas Bertasius

258

5

0

09 Jul 2025