Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark

13 September 2024

Xuchen Li

Shiyu Hu

Xiaokun Feng

Jing Zhang

Kaiqi Huang

Papers citing "Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark"

1 / 1 papers shown

Title
Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison Shiyu Hu Xuchen Li X. Li Jing Zhang Yipei Wang Xin Zhao Kang Hao Cheong VLM 22 1 0 20 Oct 2024