TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning

14 April 2024

Papers citing "TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning"

6 / 6 papers shown

Title
The 8th AI City Challenge Shuo Wang D. Anastasiu Zhenghang Tang Ming-Ching Chang Yue Yao ... Xunlei Wu S. Pusegaonkar Yizhou Wang Sujit Biswas Rama Chellappa 28 31 0 15 Apr 2024
OmniVid: A Generative Framework for Universal Video Understanding Junke Wang Dongdong Chen Chong Luo Bo He Lu Yuan Zuxuan Wu Yu-Gang Jiang VLM VGen 69 14 0 26 Mar 2024
VTimeLLM: Empower LLM to Grasp Video Moments Bin Huang Xin Wang Hong Chen Zihan Song Wenwu Zhu MLLM 82 113 0 30 Nov 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 245 554 0 28 Sep 2021
Simple Online and Realtime Tracking with a Deep Association Metric N. Wojke Alex Bewley Dietrich Paulus VOT 217 3,407 0 21 Mar 2017