Learning to Discretely Compose Reasoning Module Networks for Video Captioning

International Joint Conference on Artificial Intelligence (IJCAI), 2020

17 July 2020

Meng Wang

ArXiv (abs)PDF HTML Github (79★)

Papers citing "Learning to Discretely Compose Reasoning Module Networks for Video Captioning"

21 / 21 papers shown

Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question EvaluationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

336

12 Mar 2025

LoTLIP: Improving Language-Image Pre-training for Long Text UnderstandingNeural Information Processing Systems (NeurIPS), 2024

Wei Wu

Kecheng Zheng

Shuailei Ma

Fan Lu

Yuxin Guo

Yifei Zhang

Wei Chen

Qingpei Guo

Yujun Shen

Zheng-Jun Zha

VLM

533

07 Oct 2024

Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting

Weidong Chen

210

19 Apr 2024

JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups

Simindokht Jahangard

Zhixi Cai

Shiki Wen

Hamid Rezatofighi

209

06 Apr 2024

Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion

Yutao Jin

Yinan Han

Jing Wang

196

13 Aug 2023

Valley: Video Assistant with Large Language model Enhanced abilitY

712

262

12 Jun 2023

ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst

Jing Liu

385

25 May 2023

TCR: Short Video Title Generation and Cover Selection with Attention RefinementPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2023

177

25 Apr 2023

A Review of Deep Learning for Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Fatih Porikli

273

22 Apr 2023

Spatial-Aware Token for Weakly Supervised Object LocalizationIEEE International Conference on Computer Vision (ICCV), 2023

Yang Cao

356

18 Mar 2023

Grounding 3D Object Affordance from 2D Interactions in ImagesIEEE International Conference on Computer Vision (ICCV), 2023

Yang Cao

378

18 Mar 2023

Visual Commonsense-aware Representation Network for Video CaptioningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Pengpeng Zeng

Haonan Zhang

Lianli Gao

Xiangpeng Li

Jin Qian

Hengtao Shen

195

17 Nov 2022

Robustness Analysis of Video-Language Models Against Visual and Language PerturbationsNeural Information Processing Systems (NeurIPS), 2022

Madeline Chantry Schiappa

657

05 Jul 2022

Support-set based Multi-modal Representation Enhancement for Video CaptioningIEEE International Conference on Multimedia and Expo (ICME), 2022

Xiaoya Chen

Jingkuan Song

Pengpeng Zeng

Lianli Gao

Hengtao Shen

155

19 May 2022

Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos

Arnav Chakravarthy

Zhiyuan Fang

Yezhou Yang

184

28 Apr 2022

Video Captioning: a comparative review of where we are and which could be the routeComputer Vision and Image Understanding (CVIU), 2022

Daniela Moctezuma

Tania A. Ramirez-delreal

Guillermo Ruiz

Othón González-Chávez

291

12 Apr 2022

EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

Bing Li

298

17 Nov 2021

Visual-aware Attention Dual-stream Decoder for Video Captioning

226

16 Oct 2021

Discriminative Latent Semantic Graph for Video CaptioningACM Multimedia (ACM MM), 2021

315

08 Aug 2021

Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language

Jianwei Yang

259

18 Nov 2020

Dense Relational Image Captioning via Multi-task Triple-Stream Networks

Dong-Jin Kim

Tae-Hyun Oh

Jinsoo Choi

In So Kweon

397

08 Oct 2020