Multimodal Language Models for Domain-Specific Procedural Video Summarization

7 July 2024

Nafisa Hussain

Papers citing "Multimodal Language Models for Domain-Specific Procedural Video Summarization"

2 / 2 papers shown

Title
Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports Haopeng Li Andong Deng Qiuhong Ke Jun Liu Hossein Rahmani Yulan Guo Mohammed Bennamoun Chen Chen 37 17 0 03 Jan 2024
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 194 586 0 16 Nov 2023