Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning

7 November 2018

Papers citing "Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning"

8 / 8 papers shown

Title
Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison Shiyu Hu Xuchen Li X. Li Jing Zhang Yipei Wang Xin Zhao Kang Hao Cheong VLM 26 1 0 20 Oct 2024
Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation Liguang Zhou Yuhongze Zhou Tin Lun Lam Yangsheng Xu EDL MoE 26 2 0 15 Aug 2022
The MSR-Video to Text Dataset with Clean Annotations Haoran Chen Jianmin Li Simone Frintrop Xiaolin Hu 22 18 0 12 Feb 2021
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 29 417 0 14 Nov 2020
Delving Deeper into the Decoder for Video Captioning Haoran Chen Jianmin Li Xiaolin Hu 26 34 0 16 Jan 2020
Cascaded Revision Network for Novel Object Captioning Qianyu Feng Yu Wu Hehe Fan C. Yan Yezhou Yang 18 35 0 06 Aug 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 15 540 0 06 Apr 2019
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 191 434 0 27 Mar 2018