A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension

5 May 2023

Papers citing "A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension"

8 / 8 papers shown

Title
From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval Yabing Wang Zhuotao Tian Qingpei Guo Zheng Qin Sanping Zhou Ming Yang Le Wang 31 0 0 25 Apr 2025
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion Saron Samuel Dan DeGenaro Jimena Guallar-Blasco Kate Sanders Oluwaseun Eisape ... David Etter Efsun Kayi Matthew Wiesner Kenton W. Murray Reno Kriz 83 0 0 26 Mar 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 77 3 0 26 Feb 2025
MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation Weijia Wu Mingyu Liu Zeyu Zhu Xi Xia Haoen Feng Wen Wang Kevin Qinghong Lin Chunhua Shen Mike Zheng Shou DiffM VGen 114 1 0 22 Nov 2024
MultiVENT: Multilingual Videos of Events with Aligned Natural Text Kate Sanders David Etter Reno Kriz Benjamin Van Durme VGen 23 7 0 06 Jul 2023
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 401 594 0 21 Jul 2020
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images Andreas Veit Tomas Matera Lukás Neumann Jirí Matas Serge J. Belongie 175 515 0 26 Jan 2016