Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators

20 July 2024

Papers citing "Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators"

1 / 1 papers shown

Title
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,010 0 28 Jan 2022