v1v2 (latest)

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

27 February 2019

Nayyer Aafaq

Naveed Akhtar

Wen Liu

Syed Zulqarnain Gilani

Lin Wang

ArXiv (abs)PDF HTML

Papers citing "Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning"

50 / 52 papers shown

Title
Generating Vision-Language Navigation Instructions Incorporated Fine-Grained Alignment Annotations Yibo Cui Liang Xie Yu Zhao Jiawei Sun Erwei Yin 83 1 0 10 Jun 2025
TechCoach: Towards Technical-Point-Aware Descriptive Action Coaching Yuan-Ming Li An-Lan Wang Kun-Yu Lin Yu-Ming Tang Ling-an Zeng Jian-Fang Hu Wei-Shi Zheng 255 6 0 26 Nov 2024
Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting Fengyi Fu Shancheng Fang Weidong Chen Zhendong Mao ViT VGen 89 4 0 19 Apr 2024
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023) Kabita Parajuli S. R. Joshi 111 0 0 12 Dec 2023
Typing on Any Surface: A Deep Learning-based Method for Real-Time Keystroke Detection in Augmented Reality Xingyu Fu Mingze Xi 63 0 0 31 Aug 2023
VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation Xilun Chen L. Yu Wenhan Xiong Barlas Ouguz Yashar Mehdad Wen-tau Yih VGen 83 3 0 04 May 2023
A Review of Deep Learning for Video Captioning Moloud Abdar Meenakshi Kollati Swaraja Kuraparthi Farhad Pourpanah Daniel J. McDuff ... Shuicheng Yan Abduallah A. Mohamed Abbas Khosravi Min Zhang Fatih Porikli 3DV 145 26 0 22 Apr 2023
SEM-POS: Grammatically and Semantically Correct Video Captioning Asmar Nadeem A. Hilton R. Dawes Graham A. Thomas A. Mustafa 94 9 0 26 Mar 2023
MAViC: Multimodal Active Learning for Video Captioning Gyanendra Das Xavier Thomas Anant Raj Vikram Gupta 75 3 0 11 Dec 2022
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning Zhuo Zhou Zipeng Li Shuqin Chen Kui Jiang Chen Chen Mang Ye DiffM VGen 135 47 0 28 Nov 2022
Aligning Source Visual and Target Language Domains for Unpaired Video Captioning Fenglin Liu Xian Wu Chenyu You Shen Ge Yuexian Zou Xu Sun 125 25 0 22 Nov 2022
Thinking Hallucination for Video Captioning Nasib Ullah Partha Pratim Mohanta VLM 103 7 0 28 Sep 2022
Multimodal learning with graphs Yasha Ektefaie George Dasoulas Ayush Noori Maha Farhat Marinka Zitnik 239 112 0 07 Sep 2022
Diverse Video Captioning by Adaptive Spatio-temporal Attention Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch 76 9 0 19 Aug 2022
Large-scale Robustness Analysis of Video Action Recognition Models Madeline Chantry Schiappa Naman Biyani Prudvi Kamtam Shruti Vyas Hamid Palangi Vibhav Vineet Yogesh S Rawat AAML 136 29 0 04 Jul 2022
GIT: A Generative Image-to-text Transformer for Vision and Language Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Qinghong Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang VLM 250 614 0 27 May 2022
Support-set based Multi-modal Representation Enhancement for Video Captioning Xiaoya Chen Jingkuan Song Pengpeng Zeng Lianli Gao Hengtao Shen 98 4 0 19 May 2022
Revitalize Region Feature for Democratizing Video-Language Pre-training of Retrieval Guanyu Cai Yixiao Ge Binjie Zhang Alex Jinpeng Wang Rui Yan ... Ying Shan Lianghua He Xiaohu Qie Jianping Wu Mike Zheng Shou VLM 102 6 0 15 Mar 2022
Global2Local: A Joint-Hierarchical Attention for Video Captioning Chengpeng Dai Fuhai Chen Xiaoshuai Sun Rongrong Ji QiXiang Ye Yongjian Wu 102 1 0 13 Mar 2022
A Review on Methods and Applications in Multimodal Deep Learning Summaira Jabeen Xi Li Muhammad Shoib Amin Abdul Jabbar VLM HAI 85 116 0 18 Feb 2022
Non-linear Motion Estimation for Video Frame Interpolation using Space-time Convolutions Saikat Dutta Arulkumar Subramaniam Anurag Mittal 166 10 0 27 Jan 2022
Boosting Video Representation Learning with Multi-Faceted Integration Zhaofan Qiu Ting Yao Chong-Wah Ngo Xiaoping Zhang Dong Wu Tao Mei 93 9 0 11 Jan 2022
CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising Jianjie Luo Yehao Li Yingwei Pan Ting Yao Hongyang Chao Tao Mei VLM 88 43 0 14 Dec 2021
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning Kevin Qinghong Lin Linjie Li Chung-Ching Lin Faisal Ahmed Zhe Gan Zicheng Liu Yumao Lu Lijuan Wang ViT 146 266 0 25 Nov 2021
Hierarchical Modular Network for Video Captioning Hanhua Ye Guorong Li Yuankai Qi Shuhui Wang Qingming Huang Ming-Hsuan Yang 150 77 0 24 Nov 2021
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention Katsuyuki Nakamura Hiroki Ohashi Mitsuhiro Okada EgoV 108 13 0 07 Sep 2021
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning Fenglin Liu Xuancheng Ren Xian Wu Bang-ju Yang Shen Ge Yuexian Zou Xu Sun 99 33 0 05 Aug 2021
Recent Advances and Trends in Multimodal Deep Learning: A Review Jabeen Summaira Xi Li Amin Muhammad Shoib Songyuan Li Abdul Jabbar HAI 255 63 0 24 May 2021
The Use of Video Captioning for Fostering Physical Activity Soheyla Amirian Abolfazl Farahani H. Arabnia Khaled Rasheed T. Taha 109 8 0 07 Apr 2021
A Comprehensive Review of the Video-to-Text Problem Jesus Perez-Martin B. Bustos S. Guimarães I. Sipiran Jorge A. Pérez Grethel Coello Said 113 17 0 27 Mar 2021
Open-book Video Captioning with Retrieve-Copy-Generate Network Ziqi Zhang Chen Ma Chun Yuan Ying Shan Bing Li Ying Deng Weiming Hu 86 99 0 09 Mar 2021
Exploration of Visual Features and their weighted-additive fusion for Video Captioning V. PraveenS. Akhilesh Bharadwaj Harsh Raj Janhavi Dadhania Ganesh Samarth C.A Nikhil Pareek S. M. I. S. R. Mahadeva Prasanna 78 1 0 14 Jan 2021
A Comprehensive Review on Recent Methods and Challenges of Video Description Ashutosh Kumar Singh Thoudam Doren Singh Sivaji Bandyopadhyay 3DV VLM 73 5 0 30 Nov 2020
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale Ozan Caglayan Pranava Madhyastha Lucia Specia ELM 138 36 0 26 Oct 2020
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues Hung Le Doyen Sahoo Nancy F. Chen Guosheng Lin 138 32 0 20 Oct 2020
Video captioning with stacked attention and semantic hard pull Md. Mushfiqur Rahman Thasinul Abedin Khondokar S. S. Prottoy Ayana Moshruba Fazlul Hasan Siddiqui 85 2 0 15 Sep 2020
Video Captioning Using Weak Annotation Jingyi Hou Yunde Jia Xinxiao Wu Yayun Qi 71 2 0 02 Sep 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 123 106 0 28 Jul 2020
SBAT: Video Captioning with Sparse Boundary-Aware Transformer Tao Jin Siyu Huang Ming Chen Yingming Li Zhongfei Zhang 129 57 0 23 Jul 2020
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training Yingwei Pan Yehao Li Jianjie Luo Jun Xu Ting Yao Tao Mei 119 59 0 05 Jul 2020
Multi-modal Feature Fusion with Feature Attention for VATEX Captioning Challenge 2020 Ke Lin Zhuoxin Gan Liwei Wang 58 8 0 05 Jun 2020
Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding Fenglin Liu Xuancheng Ren Guangxiang Zhao Chenyu You Xuewei Ma Xian Wu Xu Sun 125 2 0 16 May 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 129 282 0 26 Feb 2020
Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge Hung Le Nancy F. Chen 79 9 0 25 Feb 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 65 19 0 17 Jan 2020
Delving Deeper into the Decoder for Video Captioning Haoran Chen Jianmin Li Xiaolin Hu 91 36 0 16 Jan 2020
Meaning guided video captioning Rushi J. Babariya Toru Tamaki 53 3 0 12 Dec 2019
Non-Autoregressive Coarse-to-Fine Video Captioning Bang-ju Yang Yuexian Zou Fenglin Liu Can Zhang 134 11 0 27 Nov 2019
Video Captioning with Text-based Dynamic Attention and Step-by-Step Learning Huanhou Xiao Jinglun Shi 61 25 0 05 Nov 2019
A Semantics-Assisted Video Captioning Model Trained with Scheduled Sampling Haoran Chen Ke Lin A. Maye Jianmin Li Xiaoling Hu 97 48 0 31 Aug 2019