Simple Baselines for Interactive Video Retrieval with Questions and Answers

21 August 2023

Papers citing "Simple Baselines for Interactive Video Retrieval with Questions and Answers"

9 / 9 papers shown

Title
LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification Yiding Lu Mouxing Yang Dezhong Peng Peng Hu Yijie Lin Xi Peng 49 0 0 14 Apr 2025
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking H. Tran Tinh-Anh Nguyen-Nhu Huu-Phong Phan-Nguyen T. Nguyen Nhat-Minh Nguyen-Dich Anh Dao Huy-Duc Do Quan Nguyen Hoang M. Le Quang-Vinh Dinh 26 0 0 11 Apr 2025
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 385 4,010 0 28 Jan 2022
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 203 1,651 0 15 Oct 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval with Partial Query Guanyu Cai Jun Zhang Xinyang Jiang Yifei Gong Lianghua He Fufu Yu Pai Peng Xiaowei Guo Feiyue Huang Xing Sun 16 13 0 02 Mar 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 401 594 0 21 Jul 2020
Dialog-based Interactive Image Retrieval Xiaoxiao Guo Hui Wu Yu Cheng Steven J. Rennie Gerald Tesauro Rogerio Feris 48 201 0 01 May 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,458 0 06 Jun 2016