v1v2v3 (latest)

Jointly Modeling Embedding and Translation to Bridge Video and Language

7 May 2015

Yingwei Pan

Tao Mei

Papers citing "Jointly Modeling Embedding and Translation to Bridge Video and Language"

50 / 199 papers shown

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning

11 Oct 2025

Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables

315

18 May 2025

MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance FieldIEEE Transactions on Visualization and Computer Graphics (TVCG), 2023

395

28 Jan 2025

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image CaptioningEuropean Conference on Computer Vision (ECCV), 2024

277

03 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

395

31 Dec 2024

Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference

204

21 May 2024

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

168

11 Apr 2024

Cross-Modal Reasoning with Event Correlation for Video Question Answering

178

20 Dec 2023

Multi Sentence Description of Complex Manipulation Action VideosMachine Vision and Applications (MVA), 2023

216

13 Nov 2023

A Survey on Image-text Multimodal Models

Ruifeng Guo

Jingxuan Wei

Linzhuang Sun

Khai-Nguyen Nguyen

Guiyong Chang

Dawei Liu

Sibo Zhang

Zhengbing Yao

Mingjun Xu

Liping Bu

VLM

320

23 Sep 2023

Zero-shot Composed Text-Image RetrievalBritish Machine Vision Conference (BMVC), 2023

Jiangchao Yao

209

12 Jun 2023

SEM-POS: Grammatically and Semantically Correct Video Captioning

197

26 Mar 2023

ADAPT: Action-aware Driving Caption TransformerIEEE International Conference on Robotics and Automation (ICRA), 2023

Bu Jin

Xinyi Liu

Yupeng Zheng

Pengfei Li

Hao Zhao

Tong Zhang

Yuhang Zheng

Guyue Zhou

Jingjing Liu

380

01 Feb 2023

Aligning Source Visual and Target Language Domains for Unpaired Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

242

22 Nov 2022

Prophet Attention: Predicting Attention with Future Attention for Image CaptioningNeural Information Processing Systems (NeurIPS), 2022

Xuancheng Ren

Yuexian Zou

229

19 Oct 2022

TLDW: Extreme Multimodal Summarisation of News Videos

Peggy Tang

Kun Hu

Lei Zhang

Jiebo Luo

Zhiyong Wang

186

16 Oct 2022

Cross Modal Compression: Towards Human-comprehensible Semantic CompressionACM Multimedia (MM), 2021

136

06 Sep 2022

Video Captioning: a comparative review of where we are and which could be the routeComputer Vision and Image Understanding (CVIU), 2022

Daniela Moctezuma

Tania A. Ramirez-delreal

Guillermo Ruiz

Othón González-Chávez

205

12 Apr 2022

Temporal Alignment Networks for Long-term VideoComputer Vision and Pattern Recognition (CVPR), 2022

160

103

06 Apr 2022

Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning MethodIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Keller Clayderman Martins de Oliveira

Leandro Soriano Marcolino

Erickson R. Nascimento

VGen

175

29 Mar 2022

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web VideosComputer Vision and Pattern Recognition (CVPR), 2022

Tomávs Souvcek

Jean-Baptiste Alayrac

Antoine Miech

Ivan Laptev

Josef Sivic

230

22 Mar 2022

MORE: Multi-Order RElation Mining for Dense Captioning in 3D ScenesEuropean Conference on Computer Vision (ECCV), 2022

229

10 Mar 2022

Exploiting long-term temporal dynamics for video captioningWorld wide web (Bussum) (WWW), 2018

Yuyu Guo

Jingqiu Zhang

Lianli Gao

130

22 Feb 2022

Temporal Sentence Grounding in Videos: A Survey and Future DirectionsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

370

20 Jan 2022

Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training

Yingwei Pan

Tao Mei

213

11 Jan 2022

Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text TranslationInternational Conference on Information Photonics (ICIP), 2021

153

28 Dec 2021

CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising

Yingwei Pan

Tao Mei

153

14 Dec 2021

Controllable Video Captioning with an Exemplar Sentence

173

02 Dec 2021

Syntax Customized Video Captioning by Imitating Exemplar Sentences

Yitian Yuan

Lin Ma

Wenwu Zhu

152

02 Dec 2021

Hierarchical Modular Network for Video Captioning

Hanhua Ye

Guorong Li

Yuankai Qi

Shuhui Wang

Qingming Huang

Ming-Hsuan Yang

222

24 Nov 2021

Co-segmentation Inspired Attention Module for Video-based Computer Vision TasksComputer Vision and Image Understanding (CVIU), 2021

Arulkumar Subramaniam

356

14 Nov 2021

CLIP4Caption: CLIP for Video Caption

261

173

13 Oct 2021

A Survey on Temporal Sentence Grounding in Videos

315

16 Sep 2021

Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal AttentionACM Multimedia (ACM MM), 2021

212

07 Sep 2021

Maximum Likelihood Estimation for Multimodal Learning with Missing Modality

167

24 Aug 2021

X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

Yingwei Pan

Tao Mei

186

18 Aug 2021

End-to-End Dense Video Captioning with Parallel Decoding

Ran Cheng

267

225

17 Aug 2021

O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video CaptioningFindings (Findings), 2021

Xuancheng Ren

239

05 Aug 2021

Optimizing Latency for Online Video CaptioningUsing Audio-Visual TransformersInterspeech (Interspeech), 2021

Chiori Hori

Takaaki Hori

Jonathan Le Roux

122

04 Aug 2021

Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future DirectionsInformation Fusion (Inf. Fusion), 2021

385

174

29 Jul 2021

Looking for the Signs: Identifying Isolated Sign Instances in Continuous Video FootageIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2021

Tao Jiang

Necati Cihan Camgöz

Richard Bowden

21 Jul 2021

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily LivingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

322

17 May 2021

Video Corpus Moment Retrieval with Contrastive LearningAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2021

269

102

13 May 2021

A Bi-Encoder LSTM Model For Learning Unstructured Dialogs

Diwanshu Shekhar

P. Negi

Mohammad H. Mahoor

100

25 Apr 2021

T2VLAD: Global-Local Sequence Alignment for Text-Video RetrievalComputer Vision and Pattern Recognition (CVPR), 2021

Xiaohan Wang

Linchao Zhu

Yi Yang

369

210

20 Apr 2021

Embracing Uncertainty: Decoupling and De-bias for Robust Temporal GroundingComputer Vision and Pattern Recognition (CVPR), 2021

159

31 Mar 2021

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with TransformersComputer Vision and Pattern Recognition (CVPR), 2021

Antoine Miech

Jean-Baptiste Alayrac

326

159

30 Mar 2021

A Comprehensive Review of the Video-to-Text ProblemArtificial Intelligence Review (AIR), 2021

261

27 Mar 2021

Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder NetworkAAAI Conference on Artificial Intelligence (AAAI), 2021

Yingwei Pan

Tao Mei

156

27 Jan 2021

End-to-End Video Question-Answer Generation with Generator-Pretester Network

Hung-Ting Su

142

05 Jan 2021