Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training

19 April 2021

Papers citing "Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training"

8 / 8 papers shown

Title
AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding Xing Zhang Jiaxi Gu Haoyu Zhao Shicong Wang Hang Xu Renjing Pei Songcen Xu Zuxuan Wu Yu-Gang Jiang 33 0 0 11 Jun 2024
CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios Xiangshuo Qiao Xianxin Li Xiaozhe Qu Jie M. Zhang Yang Liu Yu Luo Cihang Jin Jin Ma VLM 18 0 0 19 Jan 2024
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models Dong Lu Zhiqiang Wang Teng Wang Weili Guan Hongchang Gao Feng Zheng AAML 46 63 0 26 Jul 2023
Enhancing Sequential Recommendation with Graph Contrastive Learning Yixin Zhang Yong-jin Liu Yonghui Xu Hao Xiong Chenyi Lei Weiliang He Li-zhen Cui C. Miao 14 53 0 30 May 2022
Survey: Transformer based Video-Language Pre-training Ludan Ruan Qin Jin VLM ViT 61 44 0 21 Sep 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 410 594 0 21 Jul 2020
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,724 0 26 Sep 2016