v1v2 (latest)

Integrating both Visual and Audio Cues for Enhanced Video Caption

22 November 2017

Papers citing "Integrating both Visual and Audio Cues for Enhanced Video Caption"

9 / 9 papers shown

Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video ParsingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yating Xu

Conghui Hu

Gim Hee Lee

219

14 Nov 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

342

24 Jul 2023

Visual Sensation and Perception Computational Models for Deep Learning: State of the art, Challenges and Prospects

274

08 Sep 2021

A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer

Vladimir E. Iashin

Esa Rahtu

283

128

17 May 2020

Multi-modal Dense Video Captioning

Vladimir E. Iashin

Esa Rahtu

494

207

17 Mar 2020

A Case Study on Combining ASR and Visual Features for Generating Instructional Video CaptionsConference on Computational Natural Language Learning (CoNLL), 2019

216

07 Oct 2019

Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event CaptioningIEEE International Conference on Computer Vision (ICCV), 2019

Tanzila Rahman

Bicheng Xu

Leonid Sigal

276

22 Sep 2019

Temporal Deformable Convolutional Encoder-Decoder Networks for Video CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2019

Yingwei Pan

Tao Mei

251

107

03 May 2019

Coupled Recurrent Network (CRN)

Silvio Savarese

Bertram E. Shi

177

25 Dec 2018