Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

31 March 2018

Papers citing "Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning"

23 / 23 papers shown

Title
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting Yunlong Tang Jing Bi Chao Huang Susan Liang Daiki Shimada ... Jinxi He Liu He Zeliang Zhang Jiebo Luo Chenliang Xu 37 0 0 07 Apr 2025
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes Ting Yu Xiaojun Lin Shuhui Wang Weiguo Sheng Qingming Huang Jun-chen Yu 3DV 46 10 0 12 Mar 2024
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 24 36 0 10 Oct 2023
VideoXum: Cross-modal Visual and Textural Summarization of Videos Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao C. Ho Jiebo Luo 28 30 0 21 Mar 2023
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 28 220 0 27 Feb 2023
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos Anil Batra Shreyank N. Gowda Frank Keller Laura Sevilla-Lara 24 5 0 30 Sep 2022
End-to-end Generative Pretraining for Multimodal Video Captioning Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid 27 164 0 20 Jan 2022
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning Xu Yan Zhengcong Fei Shuhui Wang Qingming Huang Qi Tian VGen 40 4 0 19 Nov 2021
End-to-End Dense Video Captioning with Parallel Decoding Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo 3DV 41 179 0 17 Aug 2021
Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries Swathikiran Sudhakaran Sergio Escalera O. Lanz EgoV 25 15 0 16 Feb 2021
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks Humam Alwassel Silvio Giancola Bernard Ghanem 30 123 0 23 Nov 2020
Enriching Video Captions With Contextual Text Philipp Rimle Pelin Dogan Markus Gross 22 3 0 29 Jul 2020
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos Shaoxiang Chen Wenhao Jiang Wei Liu Yu-Gang Jiang 23 101 0 28 Jul 2020
Deep hierarchical pooling design for cross-granularity action recognition A. Mazari H. Sahbi 14 0 0 08 Jun 2020
Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid Network Jialin Gao Zhixiang Shi Jiani Li Guanshuo Wang Yufeng Yuan Shiming Ge Xiaoping Zhou 8 73 0 09 Mar 2020
Object Relational Graph with Teacher-Recommended Learning for Video Captioning Ziqi Zhang Yaya Shi Chunfen Yuan Bing Li Peijin Wang Weiming Hu Zhengjun Zha VLM 18 271 0 26 Feb 2020
Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning Tanzila Rahman Bicheng Xu Leonid Sigal 25 77 0 22 Sep 2019
Hallucinating Optical Flow Features for Video Classification Yongyi Tang Lin Ma Lianqiang Zhou 11 19 0 28 May 2019
Weakly Supervised Dense Event Captioning in Videos Xuguang Duan Wen-bing Huang Chuang Gan Jingdong Wang Wenwu Zhu Junzhou Huang 25 148 0 10 Dec 2018
Non-local NetVLAD Encoding for Video Classification Yongyi Tang Xing Zhang Jingwen Wang Shaoxiang Chen Lin Ma Yu-Gang Jiang 11 41 0 29 Sep 2018
The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary Bernard Ghanem Juan Carlos Niebles Cees G. M. Snoek Fabian Caba Heilbron Humam Alwassel Victor Escorcia Ranjay Krishna S. Buch Cuong Duc Dao 42 65 0 11 Aug 2018
Video Re-localization Yang Feng Lin Ma W. Liu Tong Zhang Jiebo Luo 16 71 0 05 Aug 2018
RUC+CMU: System Report for Dense Captioning Events in Videos Shizhe Chen Yuqing Song Yida Zhao Jiarong Qiu Qin Jin Alexander G. Hauptmann 9 7 0 22 Jun 2018