MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian

20 June 2023

Papers citing "MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian"

5 / 5 papers shown

Title
Unified Reward Model for Multimodal Understanding and Generation Yibin Wang Yuhang Zang Hao Li Cheng Jin J. Wang EGVM 68 4 0 07 Mar 2025
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 311 780 0 18 Apr 2021
A Straightforward Framework For Video Retrieval Using CLIP Jesús Andrés Portillo-Quintero J. C. Ortíz-Bayliss Hugo Terashima-Marín CLIP 316 116 0 24 Feb 2021
ECO: Efficient Convolutional Network for Online Video Understanding Mohammadreza Zolfaghari Kamaljeet Singh Thomas Brox 127 496 0 24 Apr 2018
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 297 10,216 0 16 Nov 2016