Text with Knowledge Graph Augmented Transformer for Video Captioning

22 March 2023

Yufei Wang

Papers citing "Text with Knowledge Graph Augmented Transformer for Video Captioning"

21 / 21 papers shown

Title
Generative Modeling of Class Probability for Multi-Modal Representation Learning Jungkyoo Shin Bumsoo Kim Eunwoo Kim 50 1 0 21 Mar 2025
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 129 0 0 18 Feb 2025
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding Xin Gu Yaojie Shen Chenxi Luo Tiejian Luo Yan Huang Yuewei Lin Heng Fan L. Zhang 55 1 0 16 Feb 2025
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei Shengqiong Wu H. Zhang Tat-Seng Chua Shuicheng Yan 59 37 0 31 Dec 2024
Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning Ping Li Tao Wang Xinkui Zhao Xianghua Xu Mingli Song 27 3 0 06 Nov 2024
GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning Eileen Wang Caren Han Josiah Poon 22 0 0 12 Oct 2024
Effectively Leveraging CLIP for Generating Situational Summaries of Images and Videos Dhruv Verma Debaditya Roy Basura Fernando 27 1 0 30 Jul 2024
GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension Jiafeng Liang Shixin Jiang Zekun Wang Haojie Pan Zerui Chen Zheng Chu Ming Liu Ruiji Fu Zhongyuan Wang Bing Qin 18 2 0 26 Jun 2024
VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It Xiaoxuan Zhu Zhouhong Gu Sihang Jiang Zhixu Li Hongwei Feng Yanghua Xiao 16 0 0 15 Jun 2024
Learning text-to-video retrieval from image captioning Lucas Ventura Cordelia Schmid Gül Varol 3DV 31 3 0 26 Apr 2024
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim MoMe ViT 40 12 0 20 Mar 2024
Knowledge Guided Entity-aware Video Captioning and A Basketball Benchmark Zeyu Xi Ge Shi Xuefen Li Junchi Yan Zun Li Lifang Wu Zilin Liu Liang Wang 17 0 0 25 Jan 2024
SnapCap: Efficient Snapshot Compressive Video Captioning Jianqiao Sun Yudi Su Hao Zhang Ziheng Cheng Zequn Zeng Zhengjue Wang Bo Chen Xin Yuan 22 1 0 10 Jan 2024
Context-Guided Spatio-Temporal Video Grounding Xin Gu Hengrui Fan Yan Huang Tiejian Luo Libo Zhang 26 14 0 03 Jan 2024
Set Prediction Guided by Semantic Concepts for Diverse Video Captioning Yifan Lu Ziqi Zhang Chunfen Yuan Peng Li Yan Wang Bing Li Weiming Hu 30 3 0 25 Dec 2023
Subject-Oriented Video Captioning Yunchuan Ma Chang Teng Yuankai Qi Guorong Li Laiyun Qing Qi Wu Qingming Huang 22 0 0 20 Dec 2023
Multi Sentence Description of Complex Manipulation Action Videos Fatemeh Ziaeetabar Reza Safabakhsh S. Momtazi M. Tamosiunaite F. Worgotter 23 1 0 13 Nov 2023
Accurate and Fast Compressed Video Captioning Yaojie Shen Xin Gu Kai Xu Hengrui Fan Longyin Wen Libo Zhang ViT 18 26 0 22 Sep 2023
NExT-GPT: Any-to-Any Multimodal LLM Shengqiong Wu Hao Fei Leigang Qu Wei Ji Tat-Seng Chua MLLM 46 449 0 11 Sep 2023
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 926 0 24 Sep 2019
Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network Bairui Wang Lin Ma Wei Zhang Wenhao Jiang Jingwen Wang Wei Liu 66 162 0 27 Aug 2019