Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

15 April 2018

Papers citing "Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning"

41 / 41 papers shown

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

324

11 Jan 2024

Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)

Kabita Parajuli

S. R. Joshi

262

12 Dec 2023

Student Classroom Behavior Detection based on Spatio-Temporal Network and Multi-Model Fusion

Fan Yang

Xiaofei Wang

291

25 Oct 2023

SCB-Dataset3: A Benchmark for Detecting Student Classroom Behavior

Fan Yang

Tao Wang

122

04 Oct 2023

Collaborative Three-Stream Transformers for Video CaptioningComputer Vision and Image Understanding (CVIU), 2023

193

18 Sep 2023

Audio-Visual Class-Incremental LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

219

21 Aug 2023

UnIVAL: Unified Model for Image, Video, Audio and Language Tasks

308

30 Jul 2023

Implicit and Explicit Commonsense for Multi-sentence Video CaptioningComputer Vision and Image Understanding (CVIU), 2023

Shih-Han Chou

James J. Little

Leonid Sigal

171

14 Mar 2023

Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent DaylightInternational Journal of Computer Vision (IJCV), 2022

303

05 Dec 2022

Discrete Contrastive Diffusion for Cross-Modal Music and Image GenerationInternational Conference on Learning Representations (ICLR), 2022

Yan Yan

378

15 Jun 2022

Quantized GAN for Complex Music Generation from Dance VideosEuropean Conference on Computer Vision (ECCV), 2022

Yan Yan

219

01 Apr 2022

End-to-end Generative Pretraining for Multimodal Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2022

281

184

20 Jan 2022

Space-Time Memory Network for Sounding Object Localization in VideosBritish Machine Vision Conference (BMVC), 2021

Sizhe Li

Yapeng Tian

Chenliang Xu

123

10 Nov 2021

Contrastive Learning of Visual-Semantic Embeddings

Anurag Jain

Yashaswi Verma

SSL

143

17 Oct 2021

Feature-Supervised Action Modality TransferInternational Conference on Pattern Recognition (ICPR), 2021

Fida Mohammad Thoker

Cees G. M. Snoek

101

06 Aug 2021

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound SeparationComputer Vision and Pattern Recognition (CVPR), 2021

189

05 Apr 2021

A Comprehensive Review of the Video-to-Text ProblemArtificial Intelligence Review (AIR), 2021

264

27 Mar 2021

Repetitive Activity Counting by Sight and SoundComputer Vision and Pattern Recognition (CVPR), 2021

Yunhua Zhang

Ling Shao

Cees G. M. Snoek

24 Mar 2021

The MSR-Video to Text Dataset with Clean AnnotationsComputer Vision and Image Understanding (CVIU), 2021

235

12 Feb 2021

Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing

Yapeng Tian

Dingzeyu Li

Chenliang Xu

261

209

21 Jul 2020

Adversarial Robustness of Deep Sensor Fusion ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

201

23 Jun 2020

Keyframe Segmentation and Positional Encoding for Video-guided Machine Translation Challenge 2020

23 Jun 2020

Multi-modal Feature Fusion with Feature Attention for VATEX Captioning Challenge 2020

Ke Lin

Zhuoxin Gan

Liwei Wang

115

05 Jun 2020

A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer

Vladimir E. Iashin

Esa Rahtu

220

128

17 May 2020

Multi-modal Dense Video Captioning

Vladimir E. Iashin

Esa Rahtu

325

199

17 Mar 2020

Video Caption Dataset for Describing Human Actions in JapaneseInternational Conference on Language Resources and Evaluation (LREC), 2020

10 Mar 2020

Spatio-Temporal Ranked-Attention Networks for Video CaptioningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

117

17 Jan 2020

Delving Deeper into the Decoder for Video CaptioningEuropean Conference on Artificial Intelligence (ECAI), 2020

Haoran Chen

Jianmin Li

Xiaolin Hu

188

16 Jan 2020

Low-Rank HOCA: Efficient High-Order Cross-Modal Attention for Video CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

Tao Jin

Siyu Huang

Yingming Li

Zhongfei Zhang

204

01 Nov 2019

Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event CaptioningIEEE International Conference on Computer Vision (ICCV), 2019

Tanzila Rahman

Bicheng Xu

Leonid Sigal

193

22 Sep 2019

A Semantics-Assisted Video Captioning Model Trained with Scheduled SamplingFrontiers in Robotics and AI (Front. Robot. AI), 2019

155

31 Aug 2019

Watch It Twice: Video Captioning with a Refocused Video EncoderACM Multimedia (ACM MM), 2019

Xiangxi Shi

Jianfei Cai

Shafiq Joty

Jiuxiang Gu

146

21 Jul 2019

Object-aware Aggregation with Bidirectional Temporal Graph for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2019

Junchao Zhang

Yuxin Peng

176

188

11 Jun 2019

VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

Lei Li

501

639

06 Apr 2019

Attending Category Disentangled Global Context for Image Classification

Wenping Wang

235

17 Dec 2018

An Attempt towards Interpretable Audio-Visual Video Captioning

168

07 Dec 2018

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language NavigationComputer Vision and Pattern Recognition (CVPR), 2018

Lei Zhang

402

598

25 Nov 2018

Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2018

224

07 Nov 2018

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

208

164

24 Apr 2018

Look Before You Leap: Bridging Model-Free and Model-Based Reinforcement Learning for Planned-Ahead Vision-and-Language Navigation

272

212

21 Mar 2018

Video Captioning via Hierarchical Reinforcement Learning

205

249

29 Nov 2017