A Strong Baseline for Temporal Video-Text Alignment

21 December 2023

Papers citing "A Strong Baseline for Temporal Video-Text Alignment"

8 / 8 papers shown

Title
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant Haibo Wang Bo Feng Zhengfeng Lai Mingze Xu Shiyu Li Weifeng Ge Afshin Dehghan Meng Cao Ping-Chia Huang OffRL 49 3 0 08 May 2025
MatchTime: Towards Automatic Soccer Game Commentary Generation Jiayuan Rao Haoning Wu Chang-rui Liu Yanfeng Wang Weidi Xie 24 7 0 26 Jun 2024
Multilingual Synopses of Movie Narratives: A Dataset for Story Understanding Yidan Sun Jianfei Yu Boyang Li 35 0 0 18 Jun 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 247 4,186 0 30 Jan 2023
NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory Santhosh Kumar Ramakrishnan Ziad Al-Halah Kristen Grauman 77 39 0 02 Jan 2023
Weakly-Supervised Temporal Article Grounding Long Chen Yulei Niu Brian Chen Xudong Lin G. Han Christopher Thomas Hammad A. Ayyubi Heng Ji Shih-Fu Chang AI4TS 19 13 0 22 Oct 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,010 0 28 Jan 2022
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 204 412 0 24 Jan 2022