Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network

IEEE International Conference on Computer Vision (ICCV), 2019

27 August 2019

Wei Liu

ArXiv (abs)PDF HTML Github (67★)

Papers citing "Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network"

50 / 58 papers shown

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

...

238

17 Jul 2025

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning

317

31 Mar 2025

Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video CaptioningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

285

20 Feb 2025

Multi-Modal interpretable automatic video captioning

Antoine Hanna-Asaad

Decky Aspandi

Titus Zaharia

277

11 Nov 2024

EVC-MF: End-to-end Video Captioning Network with Multi-scale Features

248

22 Oct 2024

HOTVCOM: Generating Buzzworthy Comments for VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Zhixu Li

Yanghua Xiao

Xiaobo Li

Ming-Hsuan Yang

Qingpei Guo

283

23 Sep 2024

SSGA-Net: Stepwise Spatial Global-local Aggregation Networks for for Autonomous Driving

Yiming Cui

Cheng Han

Dongfang Liu

333

29 May 2024

OmniVid: A Generative Framework for Universal Video Understanding

Lu Yuan

Zuxuan Wu

Yu-Gang Jiang

VLM VGen

337

26 Mar 2024

Subject-Oriented Video Captioning

Guorong Li

Qi Wu

223

20 Dec 2023

Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion

Yutao Jin

Yinan Han

Jing Wang

191

13 Aug 2023

A Review of Deep Learning for Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Fatih Porikli

255

22 Apr 2023

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and DatasetIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

491

172

17 Apr 2023

SEM-POS: Grammatically and Semantically Correct Video Captioning

243

26 Mar 2023

Text with Knowledge Graph Augmented Transformer for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

Yufei Wang

260

22 Mar 2023

Neighborhood Contrastive Transformer for Change CaptioningIEEE transactions on multimedia (IEEE TMM), 2023

Yunbin Tu

218

06 Mar 2023

Refined Semantic Enhancement towards Frequency Diffusion for Video CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2022

274

28 Nov 2022

Aligning Source Visual and Target Language Domains for Unpaired Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

279

22 Nov 2022

Visual Commonsense-aware Representation Network for Video CaptioningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Pengpeng Zeng

Haonan Zhang

Lianli Gao

Xiangpeng Li

Jin Qian

Hengtao Shen

194

17 Nov 2022

Thinking Hallucination for Video CaptioningAsian Conference on Computer Vision (ACCV), 2022

Nasib Ullah

Partha Pratim Mohanta

VLM

229

28 Sep 2022

GIT: A Generative Image-to-text Transformer for Vision and Language

Zicheng Liu

685

748

27 May 2022

GL-RG: Global-Local Representation Granularity for Video CaptioningInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

301

22 May 2022

Support-set based Multi-modal Representation Enhancement for Video CaptioningIEEE International Conference on Multimedia and Expo (ICME), 2022

Xiaoya Chen

Jingkuan Song

Pengpeng Zeng

Lianli Gao

Hengtao Shen

154

19 May 2022

Video Captioning: a comparative review of where we are and which could be the routeComputer Vision and Image Understanding (CVIU), 2022

Daniela Moctezuma

Tania A. Ramirez-delreal

Guillermo Ruiz

Othón González-Chávez

260

12 Apr 2022

Learning Audio-Video Modalities from Image CaptionsEuropean Conference on Computer Vision (ECCV), 2022

243

01 Apr 2022

End-to-end Generative Pretraining for Multimodal Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2022

338

191

20 Jan 2022

Image Captioning via Compact Bidirectional Architecture

255

06 Jan 2022

Variational Stacked Local Attention Networks for Diverse Video CaptioningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

253

04 Jan 2022

Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text TranslationInternational Conference on Information Photonics (ICIP), 2021

177

28 Dec 2021

Controllable Video Captioning with an Exemplar Sentence

219

02 Dec 2021

Syntax Customized Video Captioning by Imitating Exemplar Sentences

Yitian Yuan

Lin Ma

Wenwu Zhu

235

02 Dec 2021

SwinBERT: End-to-End Transformers with Sparse Attention for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2021

Zicheng Liu

395

327

25 Nov 2021

Hierarchical Modular Network for Video Captioning

Hanhua Ye

Guorong Li

Yuankai Qi

Shuhui Wang

Qingming Huang

Ming-Hsuan Yang

259

24 Nov 2021

DVCFlow: Modeling Information Flow Towards Human-like Video Captioning

Zhengcong Fei

297

19 Nov 2021

Co-segmentation Inspired Attention Module for Video-based Computer Vision TasksComputer Vision and Image Understanding (CVIU), 2021

Arulkumar Subramaniam

430

14 Nov 2021

Visual-aware Attention Dual-stream Decoder for Video Captioning

223

16 Oct 2021

CLIP4Caption: CLIP for Video Caption

317

183

13 Oct 2021

Cross-Modal Graph with Meta Concepts for Video CaptioningIEEE Transactions on Image Processing (TIP), 2021

Hao Wang

Guosheng Lin

Chunyan Miao

381

14 Aug 2021

O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video CaptioningFindings (Findings), 2021

Xuancheng Ren

306

05 Aug 2021

Boosting Video Captioning with Dynamic Loss Network

Nasib Ullah

Partha Pratim Mohanta

266

25 Jul 2021

A Comprehensive Review of the Video-to-Text ProblemArtificial Intelligence Review (AIR), 2021

310

27 Mar 2021

Relation-aware Instance Refinement for Weakly Supervised Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2021

282

24 Mar 2021

Open-book Video Captioning with Retrieve-Copy-Generate NetworkComputer Vision and Pattern Recognition (CVPR), 2021

Ziqi Zhang

Chen Ma

Chun Yuan

Ying Shan

Bing Li

Ying Deng

Weiming Hu

166

115

09 Mar 2021

The MSR-Video to Text Dataset with Clean AnnotationsComputer Vision and Image Understanding (CVIU), 2021

284

12 Feb 2021

TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

Humam Alwassel

Silvio Giancola

Guohao Li

308

146

23 Nov 2020

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

Roger Zimmermann

342

19 Oct 2020

Identity-Aware Multi-Sentence Video Description

J. S. Park

Trevor Darrell

Anna Rohrbach

222

22 Aug 2020

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in VideosEuropean Conference on Computer Vision (ECCV), 2020

Shaoxiang Chen

Wenhao Jiang

Wei Liu

Yu-Gang Jiang

323

112

28 Jul 2020

SBAT: Video Captioning with Sparse Boundary-Aware TransformerInternational Joint Conference on Artificial Intelligence (IJCAI), 2020

Tao Jin

Siyu Huang

Ming Chen

Yingming Li

Zhongfei Zhang

247

23 Jul 2020

Learning to Discretely Compose Reasoning Module Networks for Video CaptioningInternational Joint Conference on Artificial Intelligence (IJCAI), 2020

Meng Wang

266

17 Jul 2020

Knowledge-Based Video Question Answering with Unsupervised Scene DescriptionsEuropean Conference on Computer Vision (ECCV), 2020

Noa Garcia

Yuta Nakashima

290

17 Jul 2020