DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM

3 October 2024

Xuchen Li

Shiyu Hu

Xiaokun Feng

Jing Zhang

Kaiqi Huang

Papers citing "DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM"

1 / 1 papers shown

Title
Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison Shiyu Hu Xuchen Li X. Li Jing Zhang Yipei Wang Xin Zhao Kang Hao Cheong VLM 17 1 0 20 Oct 2024