Describing Videos by Exploiting Temporal Structure

27 February 2015

Aaron Courville

Papers citing "Describing Videos by Exploiting Temporal Structure"

50 / 109 papers shown

Title
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 202 0 0 18 Feb 2025
Video ReCap: Recursive Captioning of Hour-Long Videos Md. Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius VGen VLM 35 44 0 20 Feb 2024
CLEVRER-Humans: Describing Physical and Causal Events the Human Way Jiayuan Mao Xuelin Yang Xikun Zhang Noah D. Goodman Jiajun Wu NAI 22 22 0 05 Oct 2023
VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs Moayed Haji-Ali Andrew Bond Tolga Birdal Duygu Ceylan Levent Karacan Erkut Erdem Aykut Erdem VGen DiffM 118 2 0 12 Apr 2023
VideoXum: Cross-modal Visual and Textural Summarization of Videos Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao C. Ho Jiebo Luo 28 30 0 21 Mar 2023
ADAPT: Action-aware Driving Caption Transformer Bu Jin Xinyi Liu Yupeng Zheng Pengfei Li Hao Zhao Tong Zhang Yuhang Zheng Guyue Zhou Jingjing Liu 25 69 0 01 Feb 2023
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 29 16 0 17 Nov 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 29 17 0 05 Oct 2022
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos Anil Batra Shreyank N. Gowda Frank Keller Laura Sevilla-Lara 24 5 0 30 Sep 2022
Thinking Hallucination for Video Captioning Nasib Ullah Partha Pratim Mohanta VLM 36 4 0 28 Sep 2022
GL-RG: Global-Local Representation Granularity for Video Captioning Liqi Yan Qifan Wang Yiming Cui Fuli Feng Xiaojun Quan X. Zhang Dongfang Liu 23 59 0 22 May 2022
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval S. Gorti Noël Vouitsis Junwei Ma Keyvan Golestan M. Volkovs Animesh Garg Guangwei Yu 28 149 0 28 Mar 2022
Global2Local: A Joint-Hierarchical Attention for Video Captioning Chengpeng Dai Fuhai Chen Xiaoshuai Sun Rongrong Ji QiXiang Ye Yongjian Wu 17 1 0 13 Mar 2022
Temporal Context Matters: Enhancing Single Image Prediction with Disease Progression Representations Aishik Konwer Xuan Xu Joseph Bae Chaoyu Chen Prateek Prasanna MedIm 28 15 0 02 Mar 2022
Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices Hariom A. Pandya Brijesh S. Bhatt 40 27 0 07 Dec 2021
Syntax Customized Video Captioning by Imitating Exemplar Sentences Yitian Yuan Lin Ma Wenwu Zhu 22 6 0 02 Dec 2021
Relational Graph Learning for Grounded Video Description Generation Wenqiao Zhang X. Wang Siliang Tang Haizhou Shi Haochen Shi Jun Xiao Yueting Zhuang W. Wang 19 33 0 02 Dec 2021
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning Xu Yan Zhengcong Fei Shuhui Wang Qingming Huang Qi Tian VGen 40 4 0 19 Nov 2021
CLIP4Caption: CLIP for Video Caption Mingkang Tang Zhanyu Wang Zhenhua Liu Fengyun Rao Dian Li Xiu Li CLIP VLM 29 149 0 13 Oct 2021
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation Yanjun Gao Lulu Liu Jason Wang Xin Chen Huayan Wang Rui Zhang 25 1 0 10 Sep 2021
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention Katsuyuki Nakamura Hiroki Ohashi Mitsuhiro Okada EgoV 31 12 0 07 Sep 2021
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics Yehao Li Yingwei Pan Jingwen Chen Ting Yao Tao Mei VLM 19 31 0 18 Aug 2021
End-to-End Dense Video Captioning with Parallel Decoding Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo 3DV 44 179 0 17 Aug 2021
Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers Chiori Hori Takaaki Hori Jonathan Le Roux 17 4 0 04 Aug 2021
On Semantic Similarity in Video Retrieval Michael Wray Hazel Doughty Dima Damen 21 66 0 18 Mar 2021
A Comprehensive Study of Deep Video Action Recognition Yi Zhu Xinyu Li Chunhui Liu Mohammadreza Zolfaghari Yuanjun Xiong Chongruo Wu Zhi-Li Zhang Joseph Tighe R. Manmatha Mu Li VLM AI4TS 35 184 0 11 Dec 2020
BERT-hLSTMs: BERT and Hierarchical LSTMs for Visual Storytelling Jing Su Qingyun Dai Frank Guerin Mian Zhou 22 24 0 03 Dec 2020
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 40 417 0 14 Nov 2020
Enriching Video Captions With Contextual Text Philipp Rimle Pelin Dogan Markus Gross 27 3 0 29 Jul 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 23 101 0 28 Jul 2020
Fully Convolutional Networks for Continuous Sign Language Recognition Ka Leong Cheng Zhaoyang Yang Qifeng Chen Yu-Wing Tai SLR 38 143 0 24 Jul 2020
SBAT: Video Captioning with Sparse Boundary-Aware Transformer Tao Jin Siyu Huang Ming Chen Yingming Li Zhongfei Zhang 30 52 0 23 Jul 2020
Learning to Discretely Compose Reasoning Module Networks for Video Captioning Ganchao Tan Daqing Liu Meng Wang Zhengjun Zha LRM 25 73 0 17 Jul 2020
Comprehensive Information Integration Modeling Framework for Video Titling Shengyu Zhang Ziqi Tan Jin Yu Zhou Zhao Kun Kuang Tan Jiang Jingren Zhou Hongxia Yang Fei Wu 23 40 0 24 Jun 2020
Better Captioning with Sequence-Level Exploration Jia Chen Qin Jin 37 12 0 08 Mar 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 23 271 0 26 Feb 2020
MAST: A Memory-Augmented Self-supervised Tracker Zihang Lai Erika Lu Weidi Xie VOS 21 184 0 18 Feb 2020
Spatio-Temporal Ranked-Attention Networks for Video Captioning A. Cherian Jue Wang Chiori Hori Tim K. Marks AI4TS 20 19 0 17 Jan 2020
Delving Deeper into the Decoder for Video Captioning Haoran Chen Jianmin Li Xiaolin Hu 32 34 0 16 Jan 2020
Actions as Moving Points Yixuan Li Zixu Wang Limin Wang Gangshan Wu 22 104 0 14 Jan 2020
Action Modifiers: Learning from Adverbs in Instructional Videos Hazel Doughty Ivan Laptev W. Mayol-Cuevas Dima Damen 12 30 0 13 Dec 2019
Metric-Based Few-Shot Learning for Video Action Recognition Chris Careaga Brian Hutchinson Nathan Oken Hodas Lawrence Phillips 14 22 0 14 Sep 2019
SPA-GAN: Spatial Attention GAN for Image-to-Image Translation H. Emami Majid Moradi Aliabadi Ming Dong R. Chinnam GAN 23 168 0 19 Aug 2019
SF-Net: Structured Feature Network for Continuous Sign Language Recognition Zhaoyang Yang Zhenmei Shi Xiaoyong Shen Yu-Wing Tai SLR 27 63 0 04 Aug 2019
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning Jingwen Chen Yingwei Pan Yehao Li Ting Yao Hongyang Chao Tao Mei 19 104 0 03 May 2019
End-to-End Video Captioning Silvio Olivastri Gurkirt Singh Fabio Cuzzolin 16 18 0 04 Apr 2019
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning Nayyer Aafaq Naveed Akhtar W. Liu Syed Zulqarnain Gilani Ajmal Saeed Mian 23 204 0 27 Feb 2019
Future semantic segmentation of time-lapsed videos with large temporal displacement Talha Ahmad Siddiqui Samarth Bharadwaj 16 0 0 27 Dec 2018
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 27 190 0 17 Dec 2018
Zero-Shot Anticipation for Instructional Activities Fadime Sener Angela Yao LM&Ro 23 68 0 06 Dec 2018