v1v2 (latest)

Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization

9 October 2024

Changli Tang

Yixuan Li

Yudong Yang

Jimin Zhuang

Guangzhi Sun

Wei Li

Tianhao Shen

Chao Zhang

ArXiv (abs)PDF HTML

Papers citing "Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization"

7 / 7 papers shown

FinCap: Topic-Aligned Captions for Short-Form Financial YouTube Videos

30 Sep 2025

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

435

29 Mar 2025

Aligning Multimodal LLM with Human Preference: A Survey

...

833

18 Mar 2025

Improving LLM Video Understanding with 16 Frames Per Second

421

18 Mar 2025

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

323

17 Feb 2025

BAT: Learning to Reason about Spatial Sounds with Large Language Models

426

02 Feb 2024

Video Understanding with Large Language Models: A Survey

...

720

170

29 Dec 2023